2017年5月4日 星期四

資料科學領域線上課程大彙整(全部免費)


微積分與線性代數



  • 初階課程 (難易度:2星,推薦度:5星)
    線性代數 (交大 巫木誠 教授)
    http://ocw.nctu.edu.tw/course_detail.php?bgid=3&nid=50#.WCcJ07J97IU
    這門課程就是線性代數的基本觀念及相關定理與運算,算是比較計算與應用的課程,作為對理論不大有興趣的人這門課程算滿不錯的,而且老師講得很簡單易懂,很適合初學者!


機率論


  • 中階課程 (難易度:3.5 星,推薦度:5星)
    機率論 (清大 鄭少為老師)
    https://www.coursera.org/specializations/machine-learning
    鄭少為老師真的教的非常非常非常的好!會讓你很系統性、觀念很清楚地學完大學部的機率論,當然這不算是一門簡單的課程,需要一定的微積分基礎。儘管我沒上過鄭老師現場的課程,但是啟發我走向統計這條路的老師!

  • 中階課程  (難易度:3.5星,推薦度:4 星)
    Probability (Prof. Joe Blitzstein, Havard University)
    http://projects.iq.harvard.edu/stat110/home
    這門課程滿有趣的,其實是之前我曾經接到一個生意,要寫這個課程的期末考考卷,才發現知道原來有這門課。跟鄭老師的課程比起來,他是一個更偏「機率學」的課,許多習題都是對隨機實驗描述在做機率計算的,這堂課的缺點是比較難去了解機率論的全貌。

統計與數理統計


  • 中階課程 (難易度:3.5 星,推薦度:5星)
    統計學  (清大 鄭少為老師)
    http://www.stat.nthu.edu.tw/~swcheng/Teaching/math2820/index.html
    鄭少為老師真的教的非常非常非常的好!(再說一次 XD) 這門課程雖然叫做統計學,但其實是數理統計/高等統計學的難度,針對估計與檢定的部分真是精采絕倫!


應用統計方法


在這裡列出的課程,全部都是鄭少為老師的上課內容!我只有上過線性模式(也就是迴歸分析)跟 多變量分析,都非常精彩有用喔!基本上這些都算是進階課程,難易度都有4.5顆星喔!





時間序列分析


  • 初階課程 (難易度:2星,推薦度:5星)
    Business Analytics Using Forecasting (Prof. Galit Shmueli, NTHU)
    https://www.futurelearn.com/courses/business-analytics-forecasting
    這門課程是清大的徐茉莉教授的時間序列預測課程,課程不需要任何數學或是程式背景,可以幫助你從無到有建立資料分析的觀念,並學習到時間序列預測的精神喔!

  • 中階課程 (難易度:3.5星,推薦度:5星)
    Forecasting: principles and practice (Prof. Rob J Hyndman, Monash University)
    http://robjhyndman.com/seminars/uwa/
    這門課程沒有影片檔,但有相關的講義、投影片、以及 R code,其實光看這些教材就完全可以搞懂了。  Hyndman 教授是時間序列(應該可以說是最有名)的套件 forecast 的作者,他也是莫莉老師的好朋友,他的課程內容非常豐富,但需要一點點數學跟coding的基礎。


機器學習 ─ 一般領域


  • 中階課程 (難易度:3.5 星,推薦度:4.5 星)
    Statistical Learning (Prof. Trevor Hastie and Prof. Rob Tibshirani)
    https://goo.gl/fTf4Tl
    這兩位是 Stanford 統計系的兩位大神教授,Tibshirani 是 LASSO 的發明人,Hastie則是 elastic net 的發明人,兩位都是高維度資料分析的大師,我自己看過機器學習的書中寫的最平易近人的應該就是他們的 An Introduction to Statistical Learning,這門課便是以這本書作為主要課本,裡面也有  R 語言的實作,非常棒!

  • 中階課程 (難易度:3.5 星,推薦度: 5 星)
    Coursera 機器學習專項課程 (University of Washington)
    https://www.coursera.org/specializations/machine-learning
    這系列的專項課程是我所有機器學習課程中最推薦的,除了老師上課的說明淺顯易懂外,作業也非常應用,但又不會太難,當初雖然我是為了學 Python 而看的,結果卻是所有機器學習課程中我最最最推薦的一門。

  • 進階課程 (難易度:4.5 星,推薦度: 4 星)
    大規模機器學習實務 (清大 吳尚鴻 教授)
    http://datalab-lsml.appspot.com/
    這門課程是清大吳尚鴻教授開的機器學習,雖然老師上課的投影片中數學量滿多的,但我覺得老師 lab demo 的 ipython notebook 非常棒,很推薦大家學習!之所以沒有 5 星推薦,是因為這門課程的網頁有可能在課程結束後會被老師關掉~


機器學習 ─ 其他主題


  • 深度學習 (難易度:4.5 星,推薦度:5 星)
    機器學習 ─ 結構化與深層化 (台大 李宏毅 教授)
    http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLSD15_2.html
    市面上比較少跟 Deep Learning 相關的課程,李宏毅老師的深度學習講解得非常清楚易懂,又有搭配 Theano 教學,雖然我還沒有時間看完,但修過的都說讚!

  • 深度學習 (難易度:? 星,推薦度:? 星)
    Convolutional Neural Networks for Visual Recognition (Stanford University)
    課程影片:https://goo.gl/KesbHp
    課程講義:http://cs231n.stanford.edu/syllabus.html
    這是我的朋友推薦的,將深度學習運用在視覺辨識上,感覺是無人車必備知識啊!

  • 增強學習 (難易度:5 星,推薦度:5 星)
    Reinforcement Learning (Prof. David Silver)
    課程影片:在 youtube上搜尋 David Silver 就可以找到
    課程講義:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
    David Silver絕對是大師中的大師,如果大家有看 AlphaGo 發在 Nature 的 paper,作者第一位就是他!!!這門課程是相對比較理論一點的課程,但能帶大家看到 reinforcement learning的很多面向,超棒的!

  •  機器學習理論 (難易度:爆表 6 星,推薦度:3 星)
    Statistical Machine Learning (Prof. Larry Wrassman)
    http://www.stat.cmu.edu/~larry/=sml/
    這門課程是我非常非常喜歡的一門課(對於統計的人來說超棒的),課程很漂亮的討論了各種機器學習議題背後的統計理論,包括:RKHS、Empirical Risk Minimization、Concentration of Measure、Minimax Theory,到常見的regression, classification, clustering等技巧,有很深入的介紹。這門課真的非常非常非常的難,所以並沒有非常推薦大家去看。

有關 David’s Perspective 的最新文章,都會發布在大鼻的 Facebook 粉絲專頁,如果你喜歡大鼻的文章,還請您不吝嗇地按讚或留言給我喔!

from: 資料科學領域線上課程大彙整(全部免費)

資料科學 (Data Science) 學習路徑

資料科學 (Data Science) 學習路徑

微軟新一代認證架構

微軟國際認證包括 MCP (Microsoft Certified Professional), MTA (Microsoft Technology Associate), MOS (Microsoft Office Specialist),今年正式再推出微軟專業學位 (MPD, Microsoft Professional Degree),透過線上課程,讓學員隨時可以進修 IT 技能,還有線上 Lab 進行實際操作,完成指定系列課程取得認證,即可獲得微軟提供的專業學位。了解更多》
微軟新一代認證架構

微軟大數據培訓認證課程

微軟提供許多數據分析培訓認證課程,滿足各種就業需求所需技能,由入門的 MOS-Excel 認證,到 IT Pro 的 MCP 資料分析相關認證,以及最完整的 MPD 微軟專業學位,都能幫助您培養資料科學家的專業能力。了解更多微軟認證課程和考試》
微軟大數據培訓認證課程

微軟資料科學家學位認證

線上學習課程
https://www.edx.org/


想成為年薪 300 萬台幣的資料科學大師?一整年的武功秘籍自學清單都在這了!

本文由微信公眾號「大數據文摘」授權轉載,選文:孫強,翻譯:趙娟、王珏。大數據文摘微信 ID:BigDataDigest。,以下為作者 MANISH SARASWAT 第一人稱描述。
新年並非僅僅是更換日曆或是清晨起床後揉開雙眼。新年是充滿喜悅的一個嶄新開始。它給我們一個完美的理由養成一個新習慣,它意味著新「希望」的到來。
如果你正在閱讀這篇文章,我確信資料科學會讓你興奮!你要在 2017 年做出改變,難道不是嗎?如果你從今天開始致力於實現這些目標,這是完全可能的。你必須明白,成為一個資料科學家需要一個過程,它不是一朝一夕的成功。因此,你必須耐心地朝著目標而努力。
註:這些通用的學習計畫是為有抱負的 / 有經驗的資料科學家準備的。該文章可能不適合非資料分析領域的人員。
我已經將這些學習計畫根據資料科學家的三個水準階段進行了分類。你來決定那個階段最適合你,並進行實踐。當你完成本階段的學習任務後,便可進入下一個階段。針對不同的學習主題,我列出了可獲取的最好的課程。為了達到最佳效果,我建議你逐一學習這些課程。如果你覺得課程學習困難,請與我討論,我會給你提供一個備選方案。方便起見,我分享了可供下載的連接。
  • 初級水準
誰是初學者?如果資料分析和資料科學對你來說是一個全新的領域,你不瞭解這個行業是如何運作的,但是,你滿懷好奇的在該領域發展你的事業,那麼,你就是個初學者。下面就是你的學習目標:
 1. 從程式設計語言開始,無論是 R 或 Python。

我曾看到有學生同時學習 R 和 Python。最終,他們什麼都沒學會。這種學習方法很糟糕。你必須保證自己深入學習 R 或 Python。這是兩個在公司中廣泛應用的開源工具。Python 是公認的最簡單的程式設計語言。R 仍是人們最為喜愛的統計工具。選擇權在你。兩者都很好。
學習課程:在 Codecademy 完成 Python 的學習。在 DataCamp 完成 R 的學習。
2. 學習統計學和數學
統計學是關於假設和運算的學科。但是,如果你不懂統計和數學,很難在這個行業立足。它是資料科學家的核心競爭力。如果你的數學不好,是時候改變了。習慣使用強大的統計技術、代數和機率學。在 Khan Academy、 Udacity 等平臺上有非常棒的統計學課程。
學習課程:在 Udacity 上完成 Inferential 和 Descriptive 統計學習。在 Khan Academy 完成代數的學習。
3. 報名參加一個大型開放式網路課程(MOOC)
大型開放式網路課程(簡稱 MOOC)可以自由訪問和學習。但是,這是你做出的最難實現的承諾。學生們通常一次性報名參加多個課程,但最終一個也完成不了。因此,你必須專注於一個課程,完成之後,在進入下一個課程的學習。你可以在 coursera、edX、Udacity 上學習任何課程。
學習課程:在 Coursera 完成資料科學專業(R)的學習。在 Dataquest 完成資料科學 Python 的學習。
4. 積極參與行業實踐,發現新事物
你需要知道這個行業正在發生哪些變化。我們生活在一個充滿活力又瞬息萬變的世界。今天還十分盛行的技術明天可能就過時了。你必須與經驗豐富的專家交流,結識「未來的自己」。現在就開始行動吧,加入討論、參加聚會、關注部落格、參加團體活動,並 閱讀專業書籍 。你可以在 Facebook 上追蹤這方面的最新消息。
  • 中級水準
誰是中等水準的資料科學家?如果你已經完成了初級水準的學習,並且已經嘗試使用機器學習的基礎知識 ,熟練掌握了建立預測模型的知識,那麼你已經到達了資料科學家的中級水準。達到這個水準需要巨大的決心和大量的練習。準備好迎接這個挑戰了嗎?
1. 理解並構建機器學習技能
機器學習是資料科學與技術的未來。所有大公司在聘僱該項技術人才方面投入大量的資金和人力。毫無疑問,當前這種人才的市場需求巨大。對個人而言,也是個不可多得的好機會。今年,你應當在機器學習方面深入拓展。熟練掌握迴歸分析(Regression)、集群分析(Clustering)、 CART 演算法。
學習課程:在 Andrew Ng 完成機器學習的課程。
2. 專注於 Ensemble 和 Boosting 演算法的學習
一旦你對機器學習充滿自信,那麼轉攻下一個模型吧。使用 boosting 和 ensemble 演算法,可以使得模型的精度遠遠高於其他演算法。上面分享的免費學習資源已經涵蓋了這個主題。但是,要讓自己更深入的理解這個主題。
學習課程:閱讀 Kaggle 的 Ensembling 指南 。在 MIT Lecture 完成 Boosting 課程 。
3. 探索使用 Spark, NoSQL 以及其他大資料處理工具
本年,你將開啟自己的大數據之旅。鑒於大數據人才需求的蓬勃發展,你必須學會 Spark 軟體。最近它非常流行。大資料的未來依賴於 Spark,它被廣泛應用於大資料的操作和處理。通過學習 Spark,你還可以拓展自己的專業知識到 NoSQL , Hadoop 上。
學習課程:Spark
4. 教育社區同伴
還有什麼比知識分享更棒!從今年開始,同那些努力學習資料科學的人分享你的知識。你可以加入活躍的資料科學 論壇 ,幫他們解疑答惑,教會他們有用的技巧和竅門。你也可以舉辦類似的聚會。Follow 我們的 FB 粉絲團 。
5. 參加資料科學競賽
是時候檢驗你的學習效果了。今年你必須參一些競賽,它能幫你認清自己的長處和短板。此外,你會對已掌握的知識更加自信。我希望你能榮登 Kaggle Top500 排名榜。從現在開始,你的目標是成為 the Last Man Standing,這是一個資料科學領域的競賽。
行動指南:加入 Kaggle 和 Data Hack
  • 高級水準
我無需定義這類人群。大部分人都非常害怕去嘗試資料科學,但他們卻十分精通。他們已經過上了輕鬆愜意的生活,但是,他們熱愛挑戰。他們是經驗豐富的專家。下面是一些學習計畫:
1. 構建一個深度學習模型(deep learning model)
今年,你要為立志成為資料科學家的人樹立榜樣。你必須創建深度學習(deep learning)的模型。在世界各地,已經有人使用這些模型進行預測了。這是機器學習的高級階段。其準確性已明顯優於一般的機器學習模型。
學習課程:完成 Tutorial 的深度學習。
2. 回饋社群
我相信知識是用於分享而不是用於存起來放的。分享得越多,學到的越多。換種方法解釋,「你學到一個新概念,然後解釋給你的兩個朋友聽,你對這個概念的記憶可能會更久。」今年,你訂定一個計畫,利用你的知識和經驗説明 資料分析社區 的成員。這會説明那些在資料分析領域苦苦掙扎的人們找到勝利的彼岸。
行動計畫:在 Discuss 上分享你的知識。
3. 探索強化學習(Reinforcement Learning)
強化學習是(Reinforcement Learning)機器學習中最強大的,然而少有人開發的一個分支。今年,在這一領域做些研究。雖然很有挑戰性,但值得一試。無人駕駛、間諜無人機就是強化學習的成果。一旦你開始涉足該領域,你就自動進入人工智慧領域。
學習課程:完成 Andrew Moore 的 Tutorial
4. 進入 Kaggle 前 50 名
今年,你必須保持住在 Kaggle 上的「大師」地位,準確的講,確保自己在 Kaggle 排名進入前 50。參加適合自己領域的相關競賽,與其他 kagglers 組隊。參與這個水準的競賽,你會學習到一些在其他地方學不到的理念。
行動計畫:加入 Kaggle
追蹤你的進程。2016 年新年學習計畫表 Download
  • 結束語
我理解,這些學習計畫對你具有挑戰性,但值得一試。根據你當前的情況,自由選擇適合自己的學習計畫。我只是羅列了有抱負的資料科學家必須要知道的重要知識和技能。
在上周我意識到,人們並沒有足夠的勇氣制定新年計畫。這個問題也曾困擾著我。因此,我決定寫下這篇文章。我希望,在 2016 年結束之前,你會完成初級水準的學習(假設你是一個新手)。
這篇文章已經為你制定新年計畫掃除了障礙。作為一個有野心的資料科學家,我已經為你提供了滿漢全席,就等著你去啃下它了。在學習的過程中如果遇到任何困難,也請分享你的想法。
為了因應資料科學家就業市場的廣大需求,微軟與資策會今日宣布共同合作,培育資料科學家的人才,資策會將微軟MPP的資料科學家線上課程引進臺灣,利用開源開課平臺OPEN edX來提供中文化影片的線上課程,內容聚焦於雲端運算、大數據和人工智慧,來培養資料科學家的人才。資策會也成為在大中華區首家推廣「資料科學家」線上培訓與認證課程的微軟授權教育訓練中心。
微軟大中華區營業暨行銷事業群總經理康容引述微軟執行長Satya Nadella將數據比喻為新的電力,由於以往隱形、看不見的資訊,現在都能透過許多管道來收集,尤其對企業來說,以往收集消費者的回饋,要花許多時間和成本,現在,透過社群媒體的管道可以讓收集數據變得更簡單。
不過,即使現今大數據和雲端服務的分析工具如此盛行,康容表示,大數據的分析還是需要仰賴了解數據的人才,來建立分析模型。面臨數位轉型帶來的衝擊,許多產業都紛紛投入人工智慧、數據分析等領域,臺灣就有超過10萬位的資料科學家職缺,但是,根據微軟統計,目前卻只有1,800多位的資料科學家,因此,微軟與資策會聯手,在臺推出資料科學家培訓與認證計畫。
微軟亞太地區資料科學總監Graham Williams認為,資料科學家的工作即是利用資料解決問題,將數據變成資訊,資訊再變成知識,最後再將得到的知識帶到企業,來協助企業解決問題。他也指出,要成為資料科學家要具備以下5項技能:
1.有程式撰寫的能力
2.跨領域的專業能力
3.了解商業運作模式
4.良好的數據溝通和可視化能力
5.要有創造力
其中,程式撰寫的能力是最重要的,由於資料科學家要創造出分析的模型,程式撰寫的能力是必要的,而數據溝通和可視化能力則是透過分析工具找出數據的價值,再將資料可視化的結果呈現給企業,最後,Graham Williams也坦言,創造力是最難的技能,資料科學家要像偵探一樣,從巨量的數據中,挖掘出有價值的資訊。
根據微軟調查企業資料科學家所需具備能力,微軟設計出一系列資料科學課程,分別是9門主要學習科目和1項專案,課程內容包括雲端運算、大數據和人工智慧,全程大約為250小時。培訓計畫中的9門學習科目可歸納為基礎課程、核心資料科學、應用資料科學三大階段,共250個小時的線上課程,完成所有課程後,再完成一項大數據的專案,通過審核即可取得認證。資策會將這套線上課程影片字幕中文化,不過講義和課程介紹仍是英文內容,另外,申請每一科目的課程證書也需付費99美元。
其中,9門學習科目,使用者可以依照自己擅長的工具選擇課程,例如,基礎課程中的資料分析與視覺化,可以選擇Excel或是Power BI,核心和應用資料科學的課程,也能讓使用者選擇用R語言或是Python來撰寫演算法。
圖片來源:資策會
不過,資料科學家並不是一開始就能直接入行,目前業界資料科學家徵的才條件,大多數需要有實務的分析經驗,資策會數位教育研究所課程研發經理表示,尚未有經驗的工程師,可先從團隊中的數據工程師開始累積經驗,負責收集和整合數據,慢慢地進到數據分析,最後累積足夠的分析經驗,擁有數據的洞察力後,再成為資料科學家。
目前許多企業面臨數位轉型的衝擊,就連傳統產業也開始著手轉型,擁抱人工智慧的技術,微軟營運暨行銷事業群總經理磯貝直之表示,日本的豐田汽車,從傳統的汽車業跨足科技產業,建置了與客戶互動的資料庫,收集並分析數據,協助商業行銷決策。
康容補充,傳統產業要跨足到人工智慧等科技,將會面臨3大挑戰,包括IT部門需要更多的開發人員來管理數據、要使用新的工具來分析數據,除此之外,還需要有資料科學家不斷地更新數據和維護系統。他也建議,企業可將自家的數據,結合政府的開放資料,像是Ubike、公車和捷運的使用量,來進行分析。


沒有留言: