(2018) 資料科學線上課程總彙 – 解釋性建模篇

表格123

最近有位讀者透過粉專私訊詢問:

讀了一篇你寫的資料科學三個面向,覺得自己在資料科學領域對 ‘解釋’ 最有興趣,由於目前所學多半著重在 Machine Learning Algorithms ,雖然上過初統但要解釋時卻還覺得自己的了解有點模糊,想請教你在這一塊有沒有推薦的課程呢?

突然發現,資料科學領域線上課程大彙整(全部免費) 是一年半前的文章了!在這段時間,我也看了不少新課程,也有一些課程已經沒有在開課了,所以我決定來更新一下課程分享。我會陸續更新以下幾個主題的課程分享:

  • 資料科學基本功(數學、機率、統計、程式設計等)篇
  • 解釋性建模(實驗設計、問卷調查、迴歸分析、機率圖模型等)篇
  • 機器學習(機器學習、深度學習、增強學習、相關應用)篇

裡面可能有些課程是以前推薦過的,有些課程是我新發現的(不一定已經開課/我完全看完),分享給大家參考!

 

解釋性建模的重要主題

 

「解釋性建模」的核心目標是「透過資料分析找出變數間的因果關係」,通常要建立因果關係有幾種常見的方法:

 

  • 實驗設計 (Experimental Design):
    當你想找出某種「處置」(treatment),也就是因, 是否會影響某些「結果」(outcome),也就是果,而且這些「處置」是可以被你操作時,最常透過「實驗與測試」理解因果關係。比如說,想了解增加「同時有 ? 個人在瀏覽此商品」的產品功能會不會增加消費者的「購買機率」,你就可以透過實驗測試—讓有些消費者看到「同時有 ? 個人在瀏覽此商品」訊息,有些人沒有出現此訊息,比較有看到與看到訊息兩者之間的差距。

 

  • 問卷調查 (Survey Sampling):
    不同處置對於人類行為的影響其實相當多元,很難單純以簡單的量化指標判舵處置的效果。所以,問卷調查更適合社會領域的研究人員了解處置與行為的因果關係。比如說,想研究設計品牌形象廣告對於消費者的忠誠度影響,通常就會需要了解消費者到底看過哪些廣告,以及定義不同面向的「品牌忠誠度」,這時就更適合用問卷調查蒐集資料。

 

  • 迴歸分析 (Regression Analysis):
    在傳統經濟領域研究,大家喜歡運用迴歸分析作為因果推論的主要分析方法,主要是因為 (1) 可以操作的經濟變數通常是量化數據 – 比如說:利率、貨幣供給量等等 (2) 潛在的共同影響因子 (confounding factor)通常是量化的,所以經濟學家會喜歡透過迴歸分析來探究因果關係。

 

  • 機率圖模型 (Probabilistic Graphical Model):
    由於近幾年的數位化,越來越多「觀察型」資料 (observational data) 被不同裝置搜集 (a.k.a 大數據時代 XD),因此跟前面所提到的「操作」(manipulation) 不一樣,我們只能夠過「給定條件」 (conditioning) 來判斷一個變數是否會影響另一個變數。因此,機率圖模型在這個領域被發揚光大 – 透過條件機率建立變數與變數間的網絡 (network),探尋變數間的因果關係。

 

大家明白解釋性建模的重要主題後,我就來針對不同主題推薦一些我覺得不錯的線上課程吧!

 

實驗設計 (Experimental Design)

 

A/B 測試— Google (https://www.udacity.com/course/ab-testing–ud257)

  • 推薦度:5 顆星 / 5 顆星
  • 難易度:大二等級
  • 預先知識:基本的機率(高中程度)
  • 說明:如果你想要學習實驗設計,這是最適合作為第一門敲門課的課程了!課程是由 Google 設計,讓你對於真實世界中的實驗與測試有完整的認知。課程不只介紹了實驗設計的基本統計原理,也介紹了如何抽樣選取實驗組/對照組,更棒的事,有介紹你如何設計重要的商業指標以及 outcome variable!上完這門課程,你將會清楚理解整個實驗測試從無到有的過程!儘管課程內容不算難,大鼻在看這門課程時還是有許多收穫!

 

商業分析師的A/B 測試– Alteryx (https://www.udacity.com/course/ab-testing–ud979)

  • 推薦度:4 顆星 / 5 顆星
  • 難易度:大二等級
  • 預先知識:基本的機率(高中程度)
  • 說明:相較於前面的導論課程,這門課程有探討更多「設計實驗」的眉角,針對隨機實驗與配對實驗進行討論,同時對於控制變數、假設檢定等有系統性的介紹,跟前面的通論課程相比,我覺得這門課程更像是一門初等統計課。但是,我不是很喜歡 Alteryx 這個產品,不過我不喜歡所有 GUI 拉成 flow chart 的產品就是了 XD

 

實驗設計與分析 – 鄭少為老師 (http://www.stat.nthu.edu.tw/~swcheng/Teaching/stat5510/index.php)

  • 推薦度:4 顆星 / 5 顆星
  • 難易度:碩一等級
  • 預先知識:基本的數理統計與線性代數
  • 說明:這門課滿進階的,如果沒有修過數理統計跟線性代數可能會聽不大懂。課程的重點在講述「因子設計」(factorial design) 的理論架構與估計方法,相當精彩,同時也有 R 語言的 lab 課,如果你是讀統計/生統的學生,我相當推薦大家看一看這門課,會對於整個變異數分析體系有更清楚的認識!

 

問卷調查 (Survey Sampling)

 

問卷資料蒐集與分析專項 (https://www.coursera.org/specializations/data-collection)

  • 推薦度:5 顆星 / 5 顆星
  • 難易度:大二等級
  • 預先知識:高中數學
  • 說明:雖然我沒有把這門專項看完,但我相當喜歡這個專項的設計!我相信大部分的人都有做過問卷調查—大學通識課、統計課、專題之類的都有,但老實說其實大部分都是亂作一通 XD 這門課程特別針對「研究規劃」與「資料蒐集」的部分有詳細說明,讓我們做問卷時會更有策略性,更能驗證我們要測試的因果關係,還有教你如何處理 missing data,是我看過問卷設計課程中最完整的一門課!

 

社會科學的方法和統計專項—阿姆斯特丹大學 (https://www.coursera.org/specializations/social-science)

  • 推薦度:3.5 顆星 / 5 顆星
  • 難易度:大二等級
  • 預先知識:高中數學
  • 說明:認真來說,但我不太知道該把它放在哪邊就給它塞在這裡了 XD 其實我也沒有很認真看完這門課,不過我滿喜歡他在講「科學方法」與「研究設計」的部分,而且他的推論統計部分也很完整,上完這個項目等於上完一年的初等課程,還多了很多社會研究的相關知識,是不是還不賴 XD

 

迴歸分析 (Regression Analysis)

 

A Full Course in Econometrics — Ben Lambert (https://www.youtube.com/playlist?list=PLwJRxp3blEvZyQBTTOMFRP_TDaSdly3gU)

  • 推薦度:4 顆星 / 5 顆星
  • 難易度:大三程度
  • 預先知識:基本統計學
  • 說明:這是一位佛心的 UCL 研究員做的課程,市面上實在太難找計量經濟的課程,好不容易找到這一部!除了有好聽的英國口音外,這位佛心大大通常都會從例子開始,再講解到模型,內容相當簡單清楚,上完後會對這些計量經濟模型有更具體的理解!

 

計量經濟學 – 方法與應用—伊拉斯穆斯大學 (https://www.coursera.org/learn/erasmus-econometrics/home/info)

  • 推薦度:??? 顆星 / 5 顆星
  • 難易度:???
  • 預先知識:???
  • 說明:因為這門課程還沒有正式開始,所以我也不知道好不好 XD

 

線性迴歸和建模—杜克大學 (https://www.coursera.org/learn/linear-regression-model)

  • 推薦度:5 顆星 / 5 顆星
  • 難易度:大三等級
  • 預先知識:基本統計概念(假設檢定)
  • 說明:這是我認為目前迴歸分析最好的敲門課,從模型估計、檢測到選擇都有很直覺化的介紹,同時有 R Lab 課,如果你還不是這麼熟悉迴歸分析,我相當推薦這門課程!其實 Duke 這門專項的課都挺好的,對於統計有興趣的人可以去看一看專項的其他課程。

 

線性模式—鄭少為老師 (http://www.stat.nthu.edu.tw/~swcheng/Teaching/stat5410/index.html)

  • 推薦度:5 顆星 / 5 顆星
  • 難易度:碩一等級
  • 預先知識:基本的數理統計與線性代數
  • 說明:一句話!好課!如果你想要從線性代數的角度出發 ,重新認識迴歸平面與迴歸分析中相關的空間議題,一定要看鄭老師的解說,非常清楚又有見解!不過,如果沒有修過數理統計跟線性代數,可能會聽不大懂。

 

機率圖模型 (Probabilistic Graphical Model)

 

因果推論敲門課—賓州大學 (https://www.coursera.org/learn/crash-course-in-causality/home/info)

  • 推薦度:5 顆星 / 5 顆星
  • 難易度:大三至大四等級
  • 預先知識:基本的數學理解
  • 說明:這門課程其實還沒有正式開始(寫文章的時刻),也只有其中一週會講到機率圖模型。但我一定要說,很少有課程可以把因果推論中幾個重要的問題跟觀念講解得這麼清楚,這門課程光看第一週就值得,相信之後的內容也會很棒!而且除了有向循環圖的圖模型外,也提到了滿多不同領域的因果推論方法,非常完整。大鼻很期待這門課程的上線!

 

機率圖模型專項—史丹佛大學 (https://www.coursera.org/specializations/probabilistic-graphical-models)

  • 推薦度:4 顆星 / 5 顆星
  • 難易度:碩士一年級
  • 預先知識:機率論、線性代數
  • 說明:這門課程是 Coursera 共同創辦人在史丹佛大學很有名的課程!通常大家很少有機會學習「圖」(graph) 類的分析架構,這門課程從圖的表達、用圖進行變數的推論,到最後的貝氏網絡 (Bayesian Network) 進行學習的架構,都有非常清楚的闡述!然而,這門課程難度頗高,可能比較適合數學基礎不錯的朋友。

 

總結,其實沒什麼好總結的

 

之前有人問大鼻是不是都把這些課程看完了,of course not!我平常也是有工作和個人生活的,不是整天都在專研這些知識 XD 通常我是挑一門課中幾個有興趣的主題看,除非我對於這個領域完全不熟悉才會一堂一堂看!

 

有關 David’s Perspective 的最新文章,都會發布在大鼻的 Facebook 粉絲專頁,如果你喜歡大鼻的文章,還請您不吝嗇地按讚或留言給我喔!

大鼻觀點:https://www.facebook.com/davidperspective/

 

About David Huang

國立臺灣大學統計碩士,喜愛運用資料科學解決複雜的商業問題,改善商業決策的品質。過去的專案經歷包括:外匯選擇權套利、股票投資組合設計、戲劇推薦系統、使用者觀看行為預測、聊天機器人機器學習開發、IoT產業文字探勘與產品分析、衛材存貨管理系統等。

1 Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *