2017年5月16日 星期二

預防WannaCry勒索病毒入侵3步驟:系統更新→關閉445連接埠→安裝HitmanPro.Alert


維基百科:WannaCry(直譯「想哭」,或稱WannaCrypt、WanaCrypt0r 2.0、Wanna Decryptor)是一種利用NSA的EternalBlue工具透過網際網路對全球執行Windows作業系統的電腦進行攻擊的加密性勒索軟體蠕蟲(Encrypting Ransomware Worm)。該病毒利用AES-128和RSA演算法加密,利用Tor進行通訊,為WanaCrypt0r 1.0的變種。

勒索軟體」的存在肯定讓很多人非常憤怒,因為它在資安界上是赫赫有名的惡意軟體之一!最近筆者在逛臉書的時候就看了一則關於使用者分享了自己被勒索軟體「WanaCrypt」所綁架的圖片:



剛開始以為只是普通型式勒索軟體,但想不到它的影響速度和感染擴散是非常嚴重的趨勢:



所以到現在很多新聞媒體追著開始報導,而且也很多國家、組織企業、醫療等等設備系統遭到勒索的慘案!

想必很多人在遭受感染之後不知道該怎麼辦,有些則是請教很多專家和工程師但是得到的答案都是『只能重灌,因為這種病毒到現在是沒有辦法破解』。

又或者會想說那我付贖金是不是有辦法把檔案資料拿回來? 答案是「未必」。

因為製作這些惡意勒索病毒軟體的作者到底有沒有寫解密金鑰在程式?或者伺服端(C&C)? 是無法知道的!更何況一般人若不是資安、分析人員是很難找出答案

當然網路上有很多用戶寫出怎樣付錢 之後怎樣殺價而救回檔案的,但是萬一非常不幸的遭到了攻擊,各位必須避免付贖金給攻擊者!因為支付贖金的舉動無疑是資助這些惡意活動繼續擴張壯大。

所以我們在未遭受到攻擊前必須對症下藥!提前防範是最根本的,良好資安意識習慣必須要有!!

那『WanaCrypt 2.0』到底怎麼防範? 目前的用戶又該怎麼提前防護!?

該攻擊涉及了前幾個月微軟釋出更新MS17-010 的漏洞

是利用了Microsoft Windows 中 SMB 服務器協議組件存在嚴重遠端執行代碼漏洞

以下給出了漏洞編號CVE:
CVE-2017-0143
CVE-2017-0144
CVE-2017-0145
CVE-2017-0146
CVE-2017-0147
CVE-2017-0148
攻擊者可借助自己偽造的數據響應包利用該漏洞來造成任意代碼漏洞

影響系統版本:


Windows Server 2008 SP2、R2 SP1 Windows Server 2012 Gold和R2 Microsoft Windows Vista SP2 Windows 7 SP1 Windows 8.1 Windows RT 8.1 Windows 10 Gold 1511和1607 Windows Server 2016

 
漏洞處理和預防

未在電腦上啟用自動更新的使用者必須手動更新

可以在官方網站自行下載依照自己系統版本:


Windows 7    ( 64 位元 )  版本:下載

Windows 7    (  32 位元 ) 版本:下載

Windows 8.1 (  64 位元 ) 版本:下載

Windows 8.1 (  32 位元 ) 版本:下載

之後在控制台的防火牆關閉445 Port(連接埠) 

展示影片(下面有圖解說明):



1
開啟控制台→「系統及安全性」。




2
再點選「Windows 防火牆」。




3
新增規則」→「下一步」。




點選「連接埠」→「下一步」。




5
點選「TCP」→在「特定本機連接埠」欄位輸入「445」→「下一步」。




6
點選「封鎖連線」→「下一步」。




7
全部勾選→「下一步」。




8 
為這個規則命名(例如:445 TCP)→「下一步」。




9
就會看到輸入規則中有你禁用的規則 - 445 TCP(關閉445連接埠)。



當然!TCP跟UDP協定都要這樣做,UDP方法和上面步驟一樣,只是要記得在步驟五中改選「UDP」。


再來還有個防禦方法,修改登錄檔:


1
執行」→輸入「regedit」→「確定」。




2
右鍵按空白處→「新增」→「DWORD (32位元) 值」。




3
新增「SMB1」機碼將值設為0(代表停用)→重新開機。
登錄檔路徑:HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\services\LanmanServer\Parameters




也有在流傳機率很渺茫的解決方案:

1:打開自己的那個勒索軟件界面,點擊複製。(複製黑客的比特幣地址)
2:把副本粘貼到btc.com(區塊鏈查詢器)
3:在區塊鏈查詢器中找到黑客收款地址的交易記錄,然後隨意選擇一個TxID添加(交易哈希值)
4:把txid複製粘貼給勒索軟件界面按鈕連接我們。
5:等黑客看到後你再點擊勒索軟件上的支票。
6:再點擊解密解密文件即可。


在這裡我也要推薦兩款可以防止勒索軟體入侵的程式:
1) Emsisoft Anti-Malware
2) HitmanPro.Alert

這兩個根本是非常強的先前預防針,在我測試樣本、關閉更新、之後在本機測試結果

HitmanPro.Alert完全在他加密同時立即切斷它的加密過程,顯然是非常強的一款防勒索軟體!

簡單分析:

當然這款WanaCrypt是利用掃描全球網路有開放445 Port 的主機服務器,如果有啟用就進一步測試利用SMB 嚴重遠端執行代碼漏洞,若沒有更新系統版本的話,當然是會中標!

Poc Payload:

嘗試SMB v1 組件,如果 v1 是 x64 位元或 x86 就在登錄檔創「Dword」,如果值為0 未啟用就關閉:



勒索病毒掃描IP開放445 Port:




當然它安插了一款 doublepulsar 後門程序:




在最後掃描了一下台灣地區有多少台電腦的445 Port是開啟的,如下圖:




在上面這些啟用445連接埠的電腦可能存在被入侵植入病毒軟體的風險!可見多可怕,有幾萬多台...


結論:

世界上並未還有任何方法可以解決掉所有勒索軟體疑慮問題,我們只能提前做好防護免得在緊要關頭而爆發才要回頭來警覺更新都太遲了!

因為勒索軟體使用的加密算法有些是無法破解的,且每天都有病毒不斷在與日俱增,就算今天有個資安業者廠商寫出了解密或者破解這個勒索病毒過程,但是到了明天或是後天我們不能確保它是否還是同樣個?

惡意病毒軟體是有很多不同變種,就如同社會在變、科技在進步,病毒也在進步

手法方式和技術是不斷改變,我們只能要有資訊安全意識才能對自己保障!


相關文章:
實測WanaCrypt0r 2.0勒索病毒被Emsisoft Anti-Malware完封
實測WannaCry勒索病毒被Bitdefender Antivirus Free免費防毒軟體查殺


版權資訊 

文章作者:Honc阿榮福利味忠實讀者,目前還是個學生,熱愛資安研究、網路滲透。)

from: http://www.azofreeware.com/2017/05/wannacry.html

舊版本 Windows 用戶也免驚!微軟破解勒索病毒再出招!

勒索病毒「WannaCry」(WanaCrypt0r 2.0)自前天開始席捲全球,這波大規模網路攻擊中毒事件,可說是來的快又凶猛,之所以能在全球近百國迅速擴散造成嚴重的災情,主要是利用美國國安局先前外流的 Windows 漏洞所發動的一波網路攻擊。若電腦使用的微軟作業系統久未更新、或使用的防毒軟體沒更新至最新版本,將很有可能就會中毒。
針對這波來勢洶洶的「勒索病毒」,台灣微軟13 日對外做出回應表示,目前還沒有收到台灣企業反映相關受害的情況。為全面有效防堵病毒的威脅,微軟提供相關建議措施,提醒 Windows 7 以上的用戶,用戶必須立即安裝 3月釋出的安全性更新中的 MS17-010。
微軟表示,如果已經透過自動更新安裝該更新程式,將能夠協助電腦免除該勒索病毒的攻擊與威脅。同時提醒 「Windows 7以上的用戶」,為了降低病毒感染的威脅,應持續性更新作業系統和軟體,以保持最新安全狀態。
不過,若電腦作業系統為 Windows 7 以下的用戶,該怎麼辦? 由於微軟早已終止 Windows XP、Windows 8、Windows Sever 2003 等作業系統這些舊版本的相關技術支援,受到勒索病毒「WanaCrypt0r 2.0」網路攻擊的中毒風險性也相對更高。
由於這次網路病毒攻擊事件波及全球的影響實在是超乎想像,因此,微軟也特別針對「Windows 7 以下的用戶」,釋出相關修補程式的免費下載。提供使用較舊版本的用戶安裝作為應變措施。微軟強調,建議使用者盡可能持續性更新並升級作業系統,以確保杜絕其他勒索病毒的攻擊與威脅。
此外,微軟推也提供掃描防毒程式 Microsoft Safety Scanner 免費下載http://www.microsoft.com/security/scanner/ ,協助使用者有效的針對該惡意勒索病毒進行偵測。
使用較早版本(如下所列)的 Windows 用戶,可至微軟官網下載修補程式。

from http://3c.ltn.com.tw/news/30175


趨勢科技「勒索軟體」解密工具 Trend Micro Ransomware File Decryptor v1.0.1659

如果你不幸遇到這類問題,還是可以試試看趨勢科技推出的解密軟體 Trend Micro Ransomware File Decryptor,目前可處理被 CryptXXX V1, V2, V3*、TeslaCrypt V1**、TeslaCrypt V2**、TeslaCrypt V3、TeslaCrypt V4、SNSLocker、AutoLocky、BadBlock、777、XORIST、XORBAT、CERBER v1, Stampado, Nemucod, Chimera, LECHIFFRE, MirCop,Jigsaw, Globe/Purge, DXXD,Teamxrat/Xpan, Crysis, TeleCrypt, DemoTool… 等勒索病毒加密的檔案,副檔名包含:.crypt, .ECC, .VVV, CCC, ZZZ, AAA, ABC, XYZ, .XXX, TTT, MICRO, .RSNSLocked, .locky, .xorist, .crypted,.cerber,.locked, .crypted, .crypt, .LeChiffre, .xtbl, .dharma, .demoadc… 等,應該有機會可以用這工具還原回來。


但如果你中的不是上述的幾種病毒,那這套解密工具對你就完全沒用,畢竟一定要有相對應的金鑰才能解密。

▇ 軟體小檔案 ▇     (錯誤、版本更新回報)
  • 軟體名稱:Trend Micro Ransomware File Decryptor
  • 軟體版本:1.0.1659
  • 軟體語言:英文
  • 軟體性質:免費軟體
  • 檔案大小:11.1 MB
  • 系統支援:Windows XP/Win7/Win8/Windows 10
  • 官方網站:http://esupport.trendmicro.com/
  • 軟體下載:按這裡



Microsoft 資訊安全公告 MS17-010 - 重大

Microsoft Windows SMB 伺服器的安全性更新 (4013389)




2017年5月4日 星期四

資料科學領域線上課程大彙整(全部免費)


微積分與線性代數



  • 初階課程 (難易度:2星,推薦度:5星)
    線性代數 (交大 巫木誠 教授)
    http://ocw.nctu.edu.tw/course_detail.php?bgid=3&nid=50#.WCcJ07J97IU
    這門課程就是線性代數的基本觀念及相關定理與運算,算是比較計算與應用的課程,作為對理論不大有興趣的人這門課程算滿不錯的,而且老師講得很簡單易懂,很適合初學者!


機率論


  • 中階課程 (難易度:3.5 星,推薦度:5星)
    機率論 (清大 鄭少為老師)
    https://www.coursera.org/specializations/machine-learning
    鄭少為老師真的教的非常非常非常的好!會讓你很系統性、觀念很清楚地學完大學部的機率論,當然這不算是一門簡單的課程,需要一定的微積分基礎。儘管我沒上過鄭老師現場的課程,但是啟發我走向統計這條路的老師!

  • 中階課程  (難易度:3.5星,推薦度:4 星)
    Probability (Prof. Joe Blitzstein, Havard University)
    http://projects.iq.harvard.edu/stat110/home
    這門課程滿有趣的,其實是之前我曾經接到一個生意,要寫這個課程的期末考考卷,才發現知道原來有這門課。跟鄭老師的課程比起來,他是一個更偏「機率學」的課,許多習題都是對隨機實驗描述在做機率計算的,這堂課的缺點是比較難去了解機率論的全貌。

統計與數理統計


  • 中階課程 (難易度:3.5 星,推薦度:5星)
    統計學  (清大 鄭少為老師)
    http://www.stat.nthu.edu.tw/~swcheng/Teaching/math2820/index.html
    鄭少為老師真的教的非常非常非常的好!(再說一次 XD) 這門課程雖然叫做統計學,但其實是數理統計/高等統計學的難度,針對估計與檢定的部分真是精采絕倫!


應用統計方法


在這裡列出的課程,全部都是鄭少為老師的上課內容!我只有上過線性模式(也就是迴歸分析)跟 多變量分析,都非常精彩有用喔!基本上這些都算是進階課程,難易度都有4.5顆星喔!





時間序列分析


  • 初階課程 (難易度:2星,推薦度:5星)
    Business Analytics Using Forecasting (Prof. Galit Shmueli, NTHU)
    https://www.futurelearn.com/courses/business-analytics-forecasting
    這門課程是清大的徐茉莉教授的時間序列預測課程,課程不需要任何數學或是程式背景,可以幫助你從無到有建立資料分析的觀念,並學習到時間序列預測的精神喔!

  • 中階課程 (難易度:3.5星,推薦度:5星)
    Forecasting: principles and practice (Prof. Rob J Hyndman, Monash University)
    http://robjhyndman.com/seminars/uwa/
    這門課程沒有影片檔,但有相關的講義、投影片、以及 R code,其實光看這些教材就完全可以搞懂了。  Hyndman 教授是時間序列(應該可以說是最有名)的套件 forecast 的作者,他也是莫莉老師的好朋友,他的課程內容非常豐富,但需要一點點數學跟coding的基礎。


機器學習 ─ 一般領域


  • 中階課程 (難易度:3.5 星,推薦度:4.5 星)
    Statistical Learning (Prof. Trevor Hastie and Prof. Rob Tibshirani)
    https://goo.gl/fTf4Tl
    這兩位是 Stanford 統計系的兩位大神教授,Tibshirani 是 LASSO 的發明人,Hastie則是 elastic net 的發明人,兩位都是高維度資料分析的大師,我自己看過機器學習的書中寫的最平易近人的應該就是他們的 An Introduction to Statistical Learning,這門課便是以這本書作為主要課本,裡面也有  R 語言的實作,非常棒!

  • 中階課程 (難易度:3.5 星,推薦度: 5 星)
    Coursera 機器學習專項課程 (University of Washington)
    https://www.coursera.org/specializations/machine-learning
    這系列的專項課程是我所有機器學習課程中最推薦的,除了老師上課的說明淺顯易懂外,作業也非常應用,但又不會太難,當初雖然我是為了學 Python 而看的,結果卻是所有機器學習課程中我最最最推薦的一門。

  • 進階課程 (難易度:4.5 星,推薦度: 4 星)
    大規模機器學習實務 (清大 吳尚鴻 教授)
    http://datalab-lsml.appspot.com/
    這門課程是清大吳尚鴻教授開的機器學習,雖然老師上課的投影片中數學量滿多的,但我覺得老師 lab demo 的 ipython notebook 非常棒,很推薦大家學習!之所以沒有 5 星推薦,是因為這門課程的網頁有可能在課程結束後會被老師關掉~


機器學習 ─ 其他主題


  • 深度學習 (難易度:4.5 星,推薦度:5 星)
    機器學習 ─ 結構化與深層化 (台大 李宏毅 教授)
    http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLSD15_2.html
    市面上比較少跟 Deep Learning 相關的課程,李宏毅老師的深度學習講解得非常清楚易懂,又有搭配 Theano 教學,雖然我還沒有時間看完,但修過的都說讚!

  • 深度學習 (難易度:? 星,推薦度:? 星)
    Convolutional Neural Networks for Visual Recognition (Stanford University)
    課程影片:https://goo.gl/KesbHp
    課程講義:http://cs231n.stanford.edu/syllabus.html
    這是我的朋友推薦的,將深度學習運用在視覺辨識上,感覺是無人車必備知識啊!

  • 增強學習 (難易度:5 星,推薦度:5 星)
    Reinforcement Learning (Prof. David Silver)
    課程影片:在 youtube上搜尋 David Silver 就可以找到
    課程講義:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
    David Silver絕對是大師中的大師,如果大家有看 AlphaGo 發在 Nature 的 paper,作者第一位就是他!!!這門課程是相對比較理論一點的課程,但能帶大家看到 reinforcement learning的很多面向,超棒的!

  •  機器學習理論 (難易度:爆表 6 星,推薦度:3 星)
    Statistical Machine Learning (Prof. Larry Wrassman)
    http://www.stat.cmu.edu/~larry/=sml/
    這門課程是我非常非常喜歡的一門課(對於統計的人來說超棒的),課程很漂亮的討論了各種機器學習議題背後的統計理論,包括:RKHS、Empirical Risk Minimization、Concentration of Measure、Minimax Theory,到常見的regression, classification, clustering等技巧,有很深入的介紹。這門課真的非常非常非常的難,所以並沒有非常推薦大家去看。

有關 David’s Perspective 的最新文章,都會發布在大鼻的 Facebook 粉絲專頁,如果你喜歡大鼻的文章,還請您不吝嗇地按讚或留言給我喔!

from: 資料科學領域線上課程大彙整(全部免費)

資料科學 (Data Science) 學習路徑

資料科學 (Data Science) 學習路徑

微軟新一代認證架構

微軟國際認證包括 MCP (Microsoft Certified Professional), MTA (Microsoft Technology Associate), MOS (Microsoft Office Specialist),今年正式再推出微軟專業學位 (MPD, Microsoft Professional Degree),透過線上課程,讓學員隨時可以進修 IT 技能,還有線上 Lab 進行實際操作,完成指定系列課程取得認證,即可獲得微軟提供的專業學位。了解更多》
微軟新一代認證架構

微軟大數據培訓認證課程

微軟提供許多數據分析培訓認證課程,滿足各種就業需求所需技能,由入門的 MOS-Excel 認證,到 IT Pro 的 MCP 資料分析相關認證,以及最完整的 MPD 微軟專業學位,都能幫助您培養資料科學家的專業能力。了解更多微軟認證課程和考試》
微軟大數據培訓認證課程

微軟資料科學家學位認證

線上學習課程
https://www.edx.org/


想成為年薪 300 萬台幣的資料科學大師?一整年的武功秘籍自學清單都在這了!

本文由微信公眾號「大數據文摘」授權轉載,選文:孫強,翻譯:趙娟、王珏。大數據文摘微信 ID:BigDataDigest。,以下為作者 MANISH SARASWAT 第一人稱描述。
新年並非僅僅是更換日曆或是清晨起床後揉開雙眼。新年是充滿喜悅的一個嶄新開始。它給我們一個完美的理由養成一個新習慣,它意味著新「希望」的到來。
如果你正在閱讀這篇文章,我確信資料科學會讓你興奮!你要在 2017 年做出改變,難道不是嗎?如果你從今天開始致力於實現這些目標,這是完全可能的。你必須明白,成為一個資料科學家需要一個過程,它不是一朝一夕的成功。因此,你必須耐心地朝著目標而努力。
註:這些通用的學習計畫是為有抱負的 / 有經驗的資料科學家準備的。該文章可能不適合非資料分析領域的人員。
我已經將這些學習計畫根據資料科學家的三個水準階段進行了分類。你來決定那個階段最適合你,並進行實踐。當你完成本階段的學習任務後,便可進入下一個階段。針對不同的學習主題,我列出了可獲取的最好的課程。為了達到最佳效果,我建議你逐一學習這些課程。如果你覺得課程學習困難,請與我討論,我會給你提供一個備選方案。方便起見,我分享了可供下載的連接。
  • 初級水準
誰是初學者?如果資料分析和資料科學對你來說是一個全新的領域,你不瞭解這個行業是如何運作的,但是,你滿懷好奇的在該領域發展你的事業,那麼,你就是個初學者。下面就是你的學習目標:
 1. 從程式設計語言開始,無論是 R 或 Python。

我曾看到有學生同時學習 R 和 Python。最終,他們什麼都沒學會。這種學習方法很糟糕。你必須保證自己深入學習 R 或 Python。這是兩個在公司中廣泛應用的開源工具。Python 是公認的最簡單的程式設計語言。R 仍是人們最為喜愛的統計工具。選擇權在你。兩者都很好。
學習課程:在 Codecademy 完成 Python 的學習。在 DataCamp 完成 R 的學習。
2. 學習統計學和數學
統計學是關於假設和運算的學科。但是,如果你不懂統計和數學,很難在這個行業立足。它是資料科學家的核心競爭力。如果你的數學不好,是時候改變了。習慣使用強大的統計技術、代數和機率學。在 Khan Academy、 Udacity 等平臺上有非常棒的統計學課程。
學習課程:在 Udacity 上完成 Inferential 和 Descriptive 統計學習。在 Khan Academy 完成代數的學習。
3. 報名參加一個大型開放式網路課程(MOOC)
大型開放式網路課程(簡稱 MOOC)可以自由訪問和學習。但是,這是你做出的最難實現的承諾。學生們通常一次性報名參加多個課程,但最終一個也完成不了。因此,你必須專注於一個課程,完成之後,在進入下一個課程的學習。你可以在 coursera、edX、Udacity 上學習任何課程。
學習課程:在 Coursera 完成資料科學專業(R)的學習。在 Dataquest 完成資料科學 Python 的學習。
4. 積極參與行業實踐,發現新事物
你需要知道這個行業正在發生哪些變化。我們生活在一個充滿活力又瞬息萬變的世界。今天還十分盛行的技術明天可能就過時了。你必須與經驗豐富的專家交流,結識「未來的自己」。現在就開始行動吧,加入討論、參加聚會、關注部落格、參加團體活動,並 閱讀專業書籍 。你可以在 Facebook 上追蹤這方面的最新消息。
  • 中級水準
誰是中等水準的資料科學家?如果你已經完成了初級水準的學習,並且已經嘗試使用機器學習的基礎知識 ,熟練掌握了建立預測模型的知識,那麼你已經到達了資料科學家的中級水準。達到這個水準需要巨大的決心和大量的練習。準備好迎接這個挑戰了嗎?
1. 理解並構建機器學習技能
機器學習是資料科學與技術的未來。所有大公司在聘僱該項技術人才方面投入大量的資金和人力。毫無疑問,當前這種人才的市場需求巨大。對個人而言,也是個不可多得的好機會。今年,你應當在機器學習方面深入拓展。熟練掌握迴歸分析(Regression)、集群分析(Clustering)、 CART 演算法。
學習課程:在 Andrew Ng 完成機器學習的課程。
2. 專注於 Ensemble 和 Boosting 演算法的學習
一旦你對機器學習充滿自信,那麼轉攻下一個模型吧。使用 boosting 和 ensemble 演算法,可以使得模型的精度遠遠高於其他演算法。上面分享的免費學習資源已經涵蓋了這個主題。但是,要讓自己更深入的理解這個主題。
學習課程:閱讀 Kaggle 的 Ensembling 指南 。在 MIT Lecture 完成 Boosting 課程 。
3. 探索使用 Spark, NoSQL 以及其他大資料處理工具
本年,你將開啟自己的大數據之旅。鑒於大數據人才需求的蓬勃發展,你必須學會 Spark 軟體。最近它非常流行。大資料的未來依賴於 Spark,它被廣泛應用於大資料的操作和處理。通過學習 Spark,你還可以拓展自己的專業知識到 NoSQL , Hadoop 上。
學習課程:Spark
4. 教育社區同伴
還有什麼比知識分享更棒!從今年開始,同那些努力學習資料科學的人分享你的知識。你可以加入活躍的資料科學 論壇 ,幫他們解疑答惑,教會他們有用的技巧和竅門。你也可以舉辦類似的聚會。Follow 我們的 FB 粉絲團 。
5. 參加資料科學競賽
是時候檢驗你的學習效果了。今年你必須參一些競賽,它能幫你認清自己的長處和短板。此外,你會對已掌握的知識更加自信。我希望你能榮登 Kaggle Top500 排名榜。從現在開始,你的目標是成為 the Last Man Standing,這是一個資料科學領域的競賽。
行動指南:加入 Kaggle 和 Data Hack
  • 高級水準
我無需定義這類人群。大部分人都非常害怕去嘗試資料科學,但他們卻十分精通。他們已經過上了輕鬆愜意的生活,但是,他們熱愛挑戰。他們是經驗豐富的專家。下面是一些學習計畫:
1. 構建一個深度學習模型(deep learning model)
今年,你要為立志成為資料科學家的人樹立榜樣。你必須創建深度學習(deep learning)的模型。在世界各地,已經有人使用這些模型進行預測了。這是機器學習的高級階段。其準確性已明顯優於一般的機器學習模型。
學習課程:完成 Tutorial 的深度學習。
2. 回饋社群
我相信知識是用於分享而不是用於存起來放的。分享得越多,學到的越多。換種方法解釋,「你學到一個新概念,然後解釋給你的兩個朋友聽,你對這個概念的記憶可能會更久。」今年,你訂定一個計畫,利用你的知識和經驗説明 資料分析社區 的成員。這會説明那些在資料分析領域苦苦掙扎的人們找到勝利的彼岸。
行動計畫:在 Discuss 上分享你的知識。
3. 探索強化學習(Reinforcement Learning)
強化學習是(Reinforcement Learning)機器學習中最強大的,然而少有人開發的一個分支。今年,在這一領域做些研究。雖然很有挑戰性,但值得一試。無人駕駛、間諜無人機就是強化學習的成果。一旦你開始涉足該領域,你就自動進入人工智慧領域。
學習課程:完成 Andrew Moore 的 Tutorial
4. 進入 Kaggle 前 50 名
今年,你必須保持住在 Kaggle 上的「大師」地位,準確的講,確保自己在 Kaggle 排名進入前 50。參加適合自己領域的相關競賽,與其他 kagglers 組隊。參與這個水準的競賽,你會學習到一些在其他地方學不到的理念。
行動計畫:加入 Kaggle
追蹤你的進程。2016 年新年學習計畫表 Download
  • 結束語
我理解,這些學習計畫對你具有挑戰性,但值得一試。根據你當前的情況,自由選擇適合自己的學習計畫。我只是羅列了有抱負的資料科學家必須要知道的重要知識和技能。
在上周我意識到,人們並沒有足夠的勇氣制定新年計畫。這個問題也曾困擾著我。因此,我決定寫下這篇文章。我希望,在 2016 年結束之前,你會完成初級水準的學習(假設你是一個新手)。
這篇文章已經為你制定新年計畫掃除了障礙。作為一個有野心的資料科學家,我已經為你提供了滿漢全席,就等著你去啃下它了。在學習的過程中如果遇到任何困難,也請分享你的想法。
為了因應資料科學家就業市場的廣大需求,微軟與資策會今日宣布共同合作,培育資料科學家的人才,資策會將微軟MPP的資料科學家線上課程引進臺灣,利用開源開課平臺OPEN edX來提供中文化影片的線上課程,內容聚焦於雲端運算、大數據和人工智慧,來培養資料科學家的人才。資策會也成為在大中華區首家推廣「資料科學家」線上培訓與認證課程的微軟授權教育訓練中心。
微軟大中華區營業暨行銷事業群總經理康容引述微軟執行長Satya Nadella將數據比喻為新的電力,由於以往隱形、看不見的資訊,現在都能透過許多管道來收集,尤其對企業來說,以往收集消費者的回饋,要花許多時間和成本,現在,透過社群媒體的管道可以讓收集數據變得更簡單。
不過,即使現今大數據和雲端服務的分析工具如此盛行,康容表示,大數據的分析還是需要仰賴了解數據的人才,來建立分析模型。面臨數位轉型帶來的衝擊,許多產業都紛紛投入人工智慧、數據分析等領域,臺灣就有超過10萬位的資料科學家職缺,但是,根據微軟統計,目前卻只有1,800多位的資料科學家,因此,微軟與資策會聯手,在臺推出資料科學家培訓與認證計畫。
微軟亞太地區資料科學總監Graham Williams認為,資料科學家的工作即是利用資料解決問題,將數據變成資訊,資訊再變成知識,最後再將得到的知識帶到企業,來協助企業解決問題。他也指出,要成為資料科學家要具備以下5項技能:
1.有程式撰寫的能力
2.跨領域的專業能力
3.了解商業運作模式
4.良好的數據溝通和可視化能力
5.要有創造力
其中,程式撰寫的能力是最重要的,由於資料科學家要創造出分析的模型,程式撰寫的能力是必要的,而數據溝通和可視化能力則是透過分析工具找出數據的價值,再將資料可視化的結果呈現給企業,最後,Graham Williams也坦言,創造力是最難的技能,資料科學家要像偵探一樣,從巨量的數據中,挖掘出有價值的資訊。
根據微軟調查企業資料科學家所需具備能力,微軟設計出一系列資料科學課程,分別是9門主要學習科目和1項專案,課程內容包括雲端運算、大數據和人工智慧,全程大約為250小時。培訓計畫中的9門學習科目可歸納為基礎課程、核心資料科學、應用資料科學三大階段,共250個小時的線上課程,完成所有課程後,再完成一項大數據的專案,通過審核即可取得認證。資策會將這套線上課程影片字幕中文化,不過講義和課程介紹仍是英文內容,另外,申請每一科目的課程證書也需付費99美元。
其中,9門學習科目,使用者可以依照自己擅長的工具選擇課程,例如,基礎課程中的資料分析與視覺化,可以選擇Excel或是Power BI,核心和應用資料科學的課程,也能讓使用者選擇用R語言或是Python來撰寫演算法。
圖片來源:資策會
不過,資料科學家並不是一開始就能直接入行,目前業界資料科學家徵的才條件,大多數需要有實務的分析經驗,資策會數位教育研究所課程研發經理表示,尚未有經驗的工程師,可先從團隊中的數據工程師開始累積經驗,負責收集和整合數據,慢慢地進到數據分析,最後累積足夠的分析經驗,擁有數據的洞察力後,再成為資料科學家。
目前許多企業面臨數位轉型的衝擊,就連傳統產業也開始著手轉型,擁抱人工智慧的技術,微軟營運暨行銷事業群總經理磯貝直之表示,日本的豐田汽車,從傳統的汽車業跨足科技產業,建置了與客戶互動的資料庫,收集並分析數據,協助商業行銷決策。
康容補充,傳統產業要跨足到人工智慧等科技,將會面臨3大挑戰,包括IT部門需要更多的開發人員來管理數據、要使用新的工具來分析數據,除此之外,還需要有資料科學家不斷地更新數據和維護系統。他也建議,企業可將自家的數據,結合政府的開放資料,像是Ubike、公車和捷運的使用量,來進行分析。