微積分與線性代數
機率論
- 中階課程 (難易度:3.5星,推薦度:4 星)
Probability (Prof. Joe Blitzstein, Havard University)
http://projects.iq.harvard.edu/stat110/home
這門課程滿有趣的,其實是之前我曾經接到一個生意,要寫這個課程的期末考考卷,才發現知道原來有這門課。跟鄭老師的課程比起來,他是一個更偏「機率學」的課,許多習題都是對隨機實驗描述在做機率計算的,這堂課的缺點是比較難去了解機率論的全貌。
統計與數理統計
應用統計方法
在這裡列出的課程,全部都是鄭少為老師的上課內容!我只有上過線性模式(也就是迴歸分析)跟 多變量分析,都非常精彩有用喔!基本上這些都算是進階課程,難易度都有4.5顆星喔!
時間序列分析
- 中階課程 (難易度:3.5星,推薦度:5星)
Forecasting: principles and practice (Prof. Rob J Hyndman, Monash University)
http://robjhyndman.com/seminars/uwa/
這門課程沒有影片檔,但有相關的講義、投影片、以及 R code,其實光看這些教材就完全可以搞懂了。 Hyndman 教授是時間序列(應該可以說是最有名)的套件 forecast 的作者,他也是莫莉老師的好朋友,他的課程內容非常豐富,但需要一點點數學跟coding的基礎。
機器學習 ─ 一般領域
- 中階課程 (難易度:3.5 星,推薦度:4.5 星)
Statistical Learning (Prof. Trevor Hastie and Prof. Rob Tibshirani)
https://goo.gl/fTf4Tl
這兩位是 Stanford 統計系的兩位大神教授,Tibshirani 是 LASSO 的發明人,Hastie則是 elastic net 的發明人,兩位都是高維度資料分析的大師,我自己看過機器學習的書中寫的最平易近人的應該就是他們的 An Introduction to Statistical Learning,這門課便是以這本書作為主要課本,裡面也有 R 語言的實作,非常棒!
- 進階課程 (難易度:4.5 星,推薦度: 4 星)
大規模機器學習實務 (清大 吳尚鴻 教授)
http://datalab-lsml.appspot.com/
這門課程是清大吳尚鴻教授開的機器學習,雖然老師上課的投影片中數學量滿多的,但我覺得老師 lab demo 的 ipython notebook 非常棒,很推薦大家學習!之所以沒有 5 星推薦,是因為這門課程的網頁有可能在課程結束後會被老師關掉~
機器學習 ─ 其他主題
- 增強學習 (難易度:5 星,推薦度:5 星)
Reinforcement Learning (Prof. David Silver)
課程影片:在 youtube上搜尋 David Silver 就可以找到
課程講義:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
David Silver絕對是大師中的大師,如果大家有看 AlphaGo 發在 Nature 的 paper,作者第一位就是他!!!這門課程是相對比較理論一點的課程,但能帶大家看到 reinforcement learning的很多面向,超棒的!
- 機器學習理論 (難易度:爆表 6 星,推薦度:3 星)
Statistical Machine Learning (Prof. Larry Wrassman)
http://www.stat.cmu.edu/~larry/=sml/
這門課程是我非常非常喜歡的一門課(對於統計的人來說超棒的),課程很漂亮的討論了各種機器學習議題背後的統計理論,包括:RKHS、Empirical Risk Minimization、Concentration of Measure、Minimax Theory,到常見的regression, classification, clustering等技巧,有很深入的介紹。這門課真的非常非常非常的難,所以並沒有非常推薦大家去看。
有關 David’s Perspective 的最新文章,都會發布在大鼻的 Facebook 粉絲專頁,如果你喜歡大鼻的文章,還請您不吝嗇地按讚或留言給我喔!
from:
資料科學領域線上課程大彙整(全部免費)
微軟新一代認證架構
微軟國際認證包括 MCP (Microsoft Certified Professional), MTA (Microsoft Technology Associate), MOS (Microsoft Office Specialist),今年正式再推出微軟專業學位 (MPD, Microsoft Professional Degree),透過線上課程,讓學員隨時可以進修 IT 技能,還有線上 Lab 進行實際操作,完成指定系列課程取得認證,即可獲得微軟提供的專業學位。
了解更多》
微軟大數據培訓認證課程
微軟提供許多數據分析培訓認證課程,滿足各種就業需求所需技能,由入門的 MOS-Excel 認證,到 IT Pro 的 MCP 資料分析相關認證,以及最完整的 MPD 微軟專業學位,都能幫助您培養資料科學家的專業能力。
了解更多微軟認證課程和考試》
微軟資料科學家學位認證
線上學習課程
https://www.edx.org/
本文由微信公眾號「
大數據文摘」授權轉載,選文:孫強,翻譯:趙娟、王珏。大數據文摘微信 ID:BigDataDigest。,以下為作者 MANISH SARASWAT 第一人稱描述。
新年並非僅僅是更換日曆或是清晨起床後揉開雙眼。新年是充滿喜悅的一個嶄新開始。它給我們一個完美的理由養成一個新習慣,它意味著新「希望」的到來。
如果你正在閱讀這篇文章,我確信資料科學會讓你興奮!你要在 2017 年做出改變,難道不是嗎?如果你從今天開始致力於實現這些目標,這是完全可能的。你必須明白,成為一個資料科學家需要一個過程,它不是一朝一夕的成功。因此,你必須耐心地朝著目標而努力。
註:這些通用的學習計畫是為有抱負的 / 有經驗的資料科學家準備的。該文章可能不適合非資料分析領域的人員。
我已經將這些學習計畫根據資料科學家的三個水準階段進行了分類。你來決定那個階段最適合你,並進行實踐。當你完成本階段的學習任務後,便可進入下一個階段。針對不同的學習主題,我列出了可獲取的最好的課程。為了達到最佳效果,我建議你逐一學習這些課程。如果你覺得課程學習困難,請與我討論,我會給你提供一個備選方案。方便起見,我分享了可供下載的連接。
誰是初學者?如果資料分析和資料科學對你來說是一個全新的領域,你不瞭解這個行業是如何運作的,但是,你滿懷好奇的在該領域發展你的事業,那麼,你就是個初學者。下面就是你的學習目標:
1. 從程式設計語言開始,無論是 R 或 Python。
我曾看到有學生同時學習 R 和 Python。最終,他們什麼都沒學會。這種學習方法很糟糕。你必須保證自己深入學習 R 或 Python。這是兩個在公司中廣泛應用的開源工具。Python 是公認的最簡單的程式設計語言。R 仍是人們最為喜愛的統計工具。選擇權在你。兩者都很好。
2. 學習統計學和數學
統計學是關於假設和運算的學科。但是,如果你不懂統計和數學,很難在這個行業立足。它是資料科學家的核心競爭力。如果你的數學不好,是時候改變了。習慣使用強大的統計技術、代數和機率學。在 Khan Academy、 Udacity 等平臺上有非常棒的統計學課程。
3. 報名參加一個大型開放式網路課程(MOOC)
大型開放式網路課程(簡稱 MOOC)可以自由訪問和學習。但是,這是你做出的最難實現的承諾。學生們通常一次性報名參加多個課程,但最終一個也完成不了。因此,你必須專注於一個課程,完成之後,在進入下一個課程的學習。你可以在 coursera、edX、Udacity 上學習任何課程。
4. 積極參與行業實踐,發現新事物
你需要知道這個行業正在發生哪些變化。我們生活在一個充滿活力又瞬息萬變的世界。今天還十分盛行的技術明天可能就過時了。你必須與經驗豐富的專家交流,結識「未來的自己」。現在就開始行動吧,加入討論、參加聚會、關注部落格、參加團體活動,並
閱讀專業書籍 。你可以在
Facebook 上追蹤這方面的最新消息。
誰是中等水準的資料科學家?如果你已經完成了初級水準的學習,並且已經嘗試使用
機器學習的基礎知識 ,熟練掌握了建立預測模型的知識,那麼你已經到達了資料科學家的中級水準。達到這個水準需要巨大的決心和大量的練習。準備好迎接這個挑戰了嗎?
1. 理解並構建機器學習技能
機器學習是資料科學與技術的未來。所有大公司在聘僱該項技術人才方面投入大量的資金和人力。毫無疑問,當前這種人才的市場需求巨大。對個人而言,也是個不可多得的好機會。今年,你應當在機器學習方面深入拓展。熟練掌握迴歸分析(Regression)、集群分析(Clustering)、 CART 演算法。
2. 專注於 Ensemble 和 Boosting 演算法的學習
一旦你對機器學習充滿自信,那麼轉攻下一個模型吧。使用 boosting 和 ensemble 演算法,可以使得模型的精度遠遠高於其他演算法。上面分享的免費學習資源已經涵蓋了這個主題。但是,要讓自己更深入的理解這個主題。
學習課程:閱讀 Kaggle 的 Ensembling
指南 。在 MIT Lecture 完成 Boosting
課程 。
3. 探索使用 Spark, NoSQL 以及其他大資料處理工具
本年,你將開啟自己的大數據之旅。鑒於大數據人才需求的蓬勃發展,你必須學會 Spark 軟體。最近它非常流行。大資料的未來依賴於 Spark,它被廣泛應用於大資料的操作和處理。通過學習 Spark,你還可以拓展自己的專業知識到 NoSQL , Hadoop 上。
4. 教育社區同伴
還有什麼比知識分享更棒!從今年開始,同那些努力學習資料科學的人分享你的知識。你可以加入活躍的資料科學
論壇 ,幫他們解疑答惑,教會他們有用的技巧和竅門。你也可以舉辦類似的聚會。Follow 我們的
FB 粉絲團 。
5. 參加資料科學競賽
是時候檢驗你的學習效果了。今年你必須參一些競賽,它能幫你認清自己的長處和短板。此外,你會對已掌握的知識更加自信。我希望你能榮登 Kaggle Top500 排名榜。從現在開始,你的目標是成為
the Last Man Standing,這是一個資料科學領域的競賽。
我無需定義這類人群。大部分人都非常害怕去嘗試資料科學,但他們卻十分精通。他們已經過上了輕鬆愜意的生活,但是,他們熱愛挑戰。他們是經驗豐富的專家。下面是一些學習計畫:
1. 構建一個深度學習模型(deep learning model)
今年,你要為立志成為資料科學家的人樹立榜樣。你必須創建深度學習(deep learning)的模型。在世界各地,已經有人使用這些模型進行預測了。這是機器學習的高級階段。其準確性已明顯優於一般的機器學習模型。
2. 回饋社群
我相信知識是用於分享而不是用於存起來放的。分享得越多,學到的越多。換種方法解釋,「你學到一個新概念,然後解釋給你的兩個朋友聽,你對這個概念的記憶可能會更久。」今年,你訂定一個計畫,利用你的知識和經驗説明
資料分析社區 的成員。這會説明那些在資料分析領域苦苦掙扎的人們找到勝利的彼岸。
3. 探索強化學習(Reinforcement Learning)
強化學習是(Reinforcement Learning)機器學習中最強大的,然而少有人開發的一個分支。今年,在這一領域做些研究。雖然很有挑戰性,但值得一試。無人駕駛、間諜無人機就是強化學習的成果。一旦你開始涉足該領域,你就自動進入人工智慧領域。
4. 進入 Kaggle 前 50 名
今年,你必須保持住在 Kaggle 上的「大師」地位,準確的講,確保自己在 Kaggle 排名進入前 50。參加適合自己領域的相關競賽,與其他 kagglers 組隊。參與這個水準的競賽,你會學習到一些在其他地方學不到的理念。
我理解,這些學習計畫對你具有挑戰性,但值得一試。根據你當前的情況,自由選擇適合自己的學習計畫。我只是羅列了有抱負的資料科學家必須要知道的重要知識和技能。
在上周我意識到,人們並沒有足夠的勇氣制定新年計畫。這個問題也曾困擾著我。因此,我決定寫下這篇文章。我希望,在 2016 年結束之前,你會完成初級水準的學習(假設你是一個新手)。
這篇文章已經為你制定新年計畫掃除了障礙。作為一個有野心的資料科學家,我已經為你提供了滿漢全席,就等著你去啃下它了。在學習的過程中如果遇到任何困難,也請分享你的想法。
為了因應資料科學家就業市場的廣大需求,微軟與資策會今日宣布共同合作,培育資料科學家的人才,資策會將微軟MPP的資料科學家線上課程引進臺灣,利用開源開課平臺OPEN edX來提供中文化影片的
線上課程,內容聚焦於雲端運算、大數據和人工智慧,來培養資料科學家的人才。資策會也成為在大中華區首家推廣「資料科學家」線上培訓與認證課程的微軟授權教育訓練中心。
微軟大中華區營業暨行銷事業群總經理康容引述微軟執行長Satya Nadella將數據比喻為新的電力,由於以往隱形、看不見的資訊,現在都能透過許多管道來收集,尤其對企業來說,以往收集消費者的回饋,要花許多時間和成本,現在,透過社群媒體的管道可以讓收集數據變得更簡單。
不過,即使現今大數據和雲端服務的分析工具如此盛行,康容表示,大數據的分析還是需要仰賴了解數據的人才,來建立分析模型。面臨數位轉型帶來的衝擊,許多產業都紛紛投入人工智慧、數據分析等領域,臺灣就有超過10萬位的資料科學家職缺,但是,根據微軟統計,目前卻只有1,800多位的資料科學家,因此,微軟與資策會聯手,在臺推出資料科學家培訓與認證計畫。
微軟亞太地區資料科學總監Graham Williams認為,資料科學家的工作即是利用資料解決問題,將數據變成資訊,資訊再變成知識,最後再將得到的知識帶到企業,來協助企業解決問題。他也指出,要成為資料科學家要具備以下5項技能:
1.有程式撰寫的能力
2.跨領域的專業能力
3.了解商業運作模式
4.良好的數據溝通和可視化能力
5.要有創造力
其中,程式撰寫的能力是最重要的,由於資料科學家要創造出分析的模型,程式撰寫的能力是必要的,而數據溝通和可視化能力則是透過分析工具找出數據的價值,再將資料可視化的結果呈現給企業,最後,Graham Williams也坦言,創造力是最難的技能,資料科學家要像偵探一樣,從巨量的數據中,挖掘出有價值的資訊。
根據微軟調查企業資料科學家所需具備能力,微軟設計出一系列資料科學課程,分別是9門主要學習科目和1項專案,課程內容包括雲端運算、大數據和人工智慧,全程大約為250小時。培訓計畫中的9門學習科目可歸納為基礎課程、核心資料科學、應用資料科學三大階段,共250個小時的線上課程,完成所有課程後,再完成一項大數據的專案,通過審核即可取得認證。資策會將這套線上課程影片字幕中文化,不過講義和課程介紹仍是英文內容,另外,申請每一科目的課程證書也需付費99美元。
其中,9門學習科目,使用者可以依照自己擅長的工具選擇課程,例如,基礎課程中的資料分析與視覺化,可以選擇Excel或是Power BI,核心和應用資料科學的課程,也能讓使用者選擇用R語言或是Python來撰寫演算法。
圖片來源:資策會
不過,資料科學家並不是一開始就能直接入行,目前業界資料科學家徵的才條件,大多數需要有實務的分析經驗,資策會數位教育研究所課程研發經理表示,尚未有經驗的工程師,可先從團隊中的數據工程師開始累積經驗,負責收集和整合數據,慢慢地進到數據分析,最後累積足夠的分析經驗,擁有數據的洞察力後,再成為資料科學家。
目前許多企業面臨數位轉型的衝擊,就連傳統產業也開始著手轉型,擁抱人工智慧的技術,微軟營運暨行銷事業群總經理磯貝直之表示,日本的豐田汽車,從傳統的汽車業跨足科技產業,建置了與客戶互動的資料庫,收集並分析數據,協助商業行銷決策。
康容補充,傳統產業要跨足到人工智慧等科技,將會面臨3大挑戰,包括IT部門需要更多的開發人員來管理數據、要使用新的工具來分析數據,除此之外,還需要有資料科學家不斷地更新數據和維護系統。他也建議,企業可將自家的數據,結合政府的開放資料,像是Ubike、公車和捷運的使用量,來進行分析。