資訊品質 (InfoQ) 系列 1:系統性思考分析專案的資訊品質

%e8%a1%a8%e6%a0%bc123

大家有沒有遇過以下任何一種情境:

  • 在線下建立了一個點擊預測模型,經過嚴密的分析後,在訓練集合與測試集合都表現得非常好,結果上線後的表現卻差強人意……
  • 過去建立了一個迴歸模型分析,用以分析消費者購買幾個與幾個重要變數的關係,過去兩年的解釋能力都非常強,但這幾個月不知道為什麼解釋力都不大好。
  • 做完線上 A/B 測驗後,發現實驗組顯著優於對照組,但實際上線到所有用戶時,發現成效反而變差了!

如果遇到上面這些情境,你會怎麼樣找出問題的根源呢?許多朋友可能會認為自己過度配適 (overfit) 原先的資料集合,因而開始著手設計新的演算法,試圖找出表現更優異的模型。然而,我們設計出的新模型會不會又陷入上述的情境呢?如果又發生了上述情況,問題又在哪裡呢?我們很有可能遇到了「資訊品質」(Information Quality,InfoQ) 的問題。

 

因此,我想跟大家討論一篇我非常喜歡的論文 (Kenett, R. S., & Shmueli, G. (2014). On information quality. Journal of the Royal Statistical Society: Series A (Statistics in Society), 177(1), 3-38.)。除了介紹這篇論文提到的重要觀念外,我也會分享我自己對於 InfoQ 的理解,以及工作中曾經遇到的「資訊品質」(InfoQ) 問題。由於 InfoQ 是個非常大的議題,所以我會將這個主題寫成系列文章,跟大家分享那些年我們一起踩過的地雷。

 

什麼是「資訊品質」(InfoQ)

 

Kenett 與 Shmueli 對於「資訊品質」(InfoQ) 的定義非常簡單:一個「資料集合」透過「某個給定的分析方法」能夠「達成分析目標」的潛力因此,從上面這個定義,我們可以知道 InfoQ 有四個重要的決定因素:

 

1. 分析目標 (Analysis Goal, \mathcal{G}):

一個資料專案的分析目標其實可以拆解成兩個面向,一是「商業/科學上的目標」,二是「資料建模上的目標」。在商業上與科學上的目標,我們必須有清楚的問題,同時要能夠定義出量化的「衡量標準」 (metrics),才有辦法與資料建模上的目標對接。常見的「資料建模目標」有四種,分別是:描述性分析 (descriptive analytics)、診斷性/解釋性分析 (diagonostic / explanatory analytics)、預測性分析 (predictive analytics) 以及建議性分析 (prescriptive analytics),有興趣的朋友可以參考這篇部落格文章

 

舉例來說,進行使用者研究時,一定會先從大的商業戰略開始:新的 feature 要增加營收呢?還是應該要改善使用者體驗呢?還是要能夠從競爭者那裡吸引更多的使用者呢?清楚定義商業問題後,我們可以透過不同的方法想出好的量化指標。比如說,大鼻想要改善部落格讀者的使用者體驗,因此我可能會透過使用者訪談了解「當使用者體驗不好時,他們會有什麼樣的反應?」

 

結果訪談結果顯示,大部分的使用者會傾向「提早離開閱讀頁面」以及「減少閱讀時間」,因此我接下來的量化衡量標準便會針對跳出率(Bounce Rate)、離開率(Exit Rate)與平均網頁停留時間 (Time on Page)、平均網頁停留時間 (Time on Site) 做研究主題。為了設計這些指標的改善策略,此時我便會將資料建模目標設定成「診斷/解釋性分析」,找出影響上述指標的重要因素(如:網站設計、寫作風格、寫作主題等等)。

 

2. 資料集合 (Data, \mathcal{D}):

「資料集合」當然就是指我們要用來進行分析的資料。常見的資料型態有:橫斷面資料 (cross-sectional data)、時間序列 (time series)、長期資料 (longitudinal data)、網絡型資料 (network data)、函數型資料 (functional data) 等,可以參考 Quora 文章 1文章2康乃爾大學課程簡報等。「資料集合」的品質是資料分析專案的成敗,因此在這篇系列後續的文章,將會特別著重在衡量與提升「資料集合」的品質,在這裡就不贅述了!

 

3. 分析方法 (Empirical Method, f):

對於 InfoQ 而言,分析方法的諸多議題中,最重要的就是要能選對符合「分析目標」的模型,以及設計相對應的「測試機制」。比如說,如果我們希望做「診斷/解釋性分析」,比較簡單的參數化線性模型,可能會比複雜的深度神經網絡好;如果想要做「建議性分析」,實驗設計與測試會比線性模型更能夠衡量策略的影響與衝擊。

 

4. 效用指標 (Utility, U):

「效用」指的是「給定資料集合與分析方法,得出的分析結果能否達成分析目標」,也就是在分析完成後衡量「是否達成資料分析目標」以及「是否達成商業/科學目標」。「是否達成資料分析目標」比較簡單,比如說:解釋性建模常用的就是 p-value、檢定力等,在預測性分析可能就是準確度、精確度與召回率等常見的指標。「是否達成商業/科學目標」可能要進行一系列的質化與量化分析,確認資料分析的結果與商業/科學目標的期待是一致的。

 

個案研究:改善 APP 的使用者參與度 (User Engagement)

 

(以下為虛構個案) 假設你是一個戲劇串流 app 的資料科學家,他們的企業願景有一部分是:

著重於戲劇發展,擴張串流內容多元性與提升內容品質,持續優化使用者介面與體驗,並延伸服務至不同的連網裝置。

最近,公司的 PM 發現「使用者的參與度」似乎不如從前,因此希望資料科學家協助,制定改善使用者參予度的重要策略。

 

1. 分析目標 (Analysis Goal, \mathcal{G}):

從戰略層次來看,由於我們的 APP 以廣告為主要的獲利來源,提升使用者參與度能夠增加廣告曝光次數、廣告點擊率,同時也能夠提高公司業務與廣告商的談判籌碼。因此,此處的商業目標是:「提升用戶參與度進而改善廣告營收」。值得注意的是,在定義商業目標時,要很清楚「為什麼要改善使用者參與度」以及「提升參與度對公司能帶來什麼好處」。

 

由於 PM 希望協助制定策略,我的思考邏輯通常是:先理解使用者參與度的影響因素,根據這些影響因素設計適合的調整方案,再針對這些調整方案進行測試找出最佳方案。因此,專案初期是屬與「診斷/解釋性分析」,接著則是要設計代表「使用者參與度」的指標。通常我們不會只監測單一指標,而是會監測多個面向的使用者參與度,比如說:

 

  • 人口相關:活躍使用者數 (Active User)、頁面訪問數 (Page Visit)、戲劇總觀看數 (View Count)、觀看總時間 (Total Watching Time) 等
  • 活動相關:每人觀看次數 (View Count per User)、每人觀看劇數 (# of Dramas Watched per User)、每人觀看總時數(Total Watching Time per User)、每次觀看時間 (Total Watching Time per View Count) 等
  • 忠誠度相關:每人登入APP次數、每人每月登入 APP 天數、每人使用聯網裝置數量等等。

 

上述指標雖然看起來很清楚易懂,但其實有許多細節尚未定義清楚,如:什麼樣的使用者叫做活躍使用者?時間上要以日、週、還是月等去計算指標等等,這些細節常常要與不同團隊與同事討論,才能確定我們監測的量化指標是有意義的。最後,經過幾番討論,我們訂出的資料分析目標是找出「一個使用者是否活躍」的重要因素。

 

2. 資料集合 (Data, \mathcal{D}):

定義清楚之後,我們會根據分析目標蒐集對應的資料。在上述的個案中,我們會蒐集與研究目的相關的資料,除了常見的使用者特徵 (性別、年齡、國籍等) 與瀏覽行為外(瀏覽裝置、點擊次數),也可以透過使用者研究找出值得蒐集的變數。另外,可能也會透過設計實驗來蒐集數據。

 

3. 分析方法 (Empirical Method, $latex f$):

由於目標變數是「一個使用者是否活躍」,因此我們要選擇分類模型,比如說:由於解釋變數較多、可能存在離群值、以及有類別變數,因此我們選擇使用隨機森林 (random forest) 分類一個使用者是否活躍。同時我們可以利用部分相關性 (partial dependence) 以及變數重要性 (variable importance)了解重要的影響因子。

 

4. 效用指標 (Utility, $latex U$):

由於屬於分類問題,我們會使用預測準確度 (predictive accuracy)、精確度 (precision)、召回度 (recall)、F1 指標等衡量模型的準確度。

 

小結:InfoQ 公式

 

相信從上面的解說,大家應該能夠理解影響分析專案資訊品質的四大元素,最後提供給大家論文中的一個公司,總結了 InfoQ 的構成要素:

 

有關 David’s Perspective 的最新文章,都會發布在大鼻的 Facebook 粉絲專頁,如果你喜歡大鼻的文章,還請您不吝嗇地按讚或留言給我喔!

大鼻觀點:https://www.facebook.com/davidperspective/

 

 

About David Huang

國立臺灣大學統計碩士,喜愛運用資料科學解決複雜的商業問題,改善商業決策的品質。過去的專案經歷包括:外匯選擇權套利、股票投資組合設計、戲劇推薦系統、使用者觀看行為預測、聊天機器人機器學習開發、IoT產業文字探勘與產品分析、衛材存貨管理系統等。

1 Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *