資料專案的完整流程 3:Information-out

rplot

※ 最新資訊請看我的粉絲專業:大鼻觀點

※ 前情題要 ─ 資料專案的完整流程 1:Information-in

※ 前情題要 ─資料專案的完整流程 2:Information-process

 

在這篇文章中,我想要跟大家談談「Information-out」這件事,當資料科學家費盡大量的心力分析完資料,找出有用的洞見後,時常我們必須要向「有決策權的人」─客戶、主管、其他部門的同事─進行報告。此時,「有效地」呈現資料分析的結果將會影響著前面的分析究竟是白費了,還是能夠真正影響組織決策,讓自己的分析為組織帶來價值!一般而言,在呈現分析結果前最常會需要進行「資料視覺化」(Data Visualization),因此這篇文章我會將重點擺在資料視覺化的部分。

 

 解釋 (Explanation) 而不是探索 (Exploratory)

 

在前一篇文章中,我有稍微提到,做資料視覺化最重要的目標有二,一是找出隱藏的資訊 (hidden information),二是證明自己的論點。在商業世界中,我們經常要用「資料」佐證自己提出的策略與建議,這時候如何「有效果」且「有效率」地呈現數據將決定你是否能夠說服你的主管或客戶。通常會稱互「運用視覺化找出隱藏資訊」的過程為「探索性資料分析」(exploratory data analysis),在這一個步驟資料科學家會根據自己心中的假設,建立大量的視覺化圖表,找出變數間的潛在關係,然而這些關係不一定對於決策或分析有幫助,因此在做最終報告時,不應該把這些圖表全部貼在PowerPoint上。

 

我以前曾經犯過一個錯誤,就是在10分鐘的簡報上放了無數的資料圖表,當時我的想法是:我想要說明我的分析過程,並且證明我很有能力,能夠進行龐大的資料分析,以說服聽眾。當時台下有一位評審,他給我的feedback是:你的投影片實在是太多了,我聽到後來完全聽不進去。這時我才發現:我一味想把我所有的分析結果都呈現出來,卻沒有站在聽眾的角度去思考。其實,在真正進行報告時,要試圖去呈現的是「解釋型」(explanatory) 的資料視覺化─對於決策有幫助,或是至關重要的證據,才應該放在簡報上。

 

因此,在「Info-out」的時候,一定要掌握好「誰是聽眾」、「為何而聽」,在此框架下進行「解釋型」資料視覺化,就算探索性視覺化很辛苦、有好玩的情況,只要不是聽眾想聽的,我們就不應呈現在最後的結案成果中。Simple is the best 是商業世界的不二法門!接下來我想分享幾個我常用的視覺化圖形,讓大家可以體會前面說到的「解釋型」資料視覺化是什麼。

 

折線圖 (Line Chart):時間與變數的呈現

 

通常要呈現某一個變數與時間之間的關係時,我會選用折線圖,有人會喜歡用長條圖(bar chart),但我個人不太推薦,主要的原因有二:一是如果時間比較多,長條圖會變得很滿,不夠簡潔,二是因為我們時常會需要比較多個變數,這時就沒辦法用長條圖呈現。折線圖可以很清楚地呈現不同序列間的關係,比如說下面這張圖,我想要比較2014、2015、2016年一月份銷售額的變化,這張圖是用來佐證「新的行銷計畫使銷售額顯著上升」,則時當然可以只呈現這三年銷售額的數字,但如果用下圖呈現「一月份日期」與「總銷售額」之間的關係,將更能凸顯行銷計劃的成功。

 

rplot

 

另外,折線圖也可以幫助我們辨認出序列間的「異常行為」,這張圖是為了說明「債券風險溢酬交易的機會是確實存在的」,比如說,下面這張圖是台灣一年期公債「風險溢酬」與「時間」的折線圖,從中可以看到以往 BBB-A 應介於 A-AAA 與 A-AA之間,但在2016年2月時突然超過A-AAA級,此時就可以在市場異常時應用統計方法去做交易。

 

rplot

 

族群間的比率比較:堆疊長條圖

 

堆疊長條圖是另一個我很常使用的圖形,通常會用在問卷調查結果的呈現。時常我們需要將問卷調查的問題與相對應回答的比率呈現出來,告訴產品經理該設計什麼樣的產品,這個時候堆疊長條圖就派上用場了!像下面是以前做HBS case做過的圖,每一個長條代表一個項目,Score 越高代表消費者認為這個項目越重要,將問卷的填答分成四個類別:Score 5-6 、 Score 3-4、Score 1-2 、No Response 四個類別。

 

透過這張圖可以很清楚呈現問卷調查的結果,並且提出策略上的建議。在這個case中,目前Dawn品牌具有去油漬、使餐盤乾淨、移除燒焦的食物殘紮特性,若能透過新技術「H-80配方」,將能大幅強度使碗盤光亮的功能,強化品牌的「清潔定位」。而 Joy 這個品牌目前的特色是「用量較少」跟「味道香」兩個好處,若能透過新技術「No-spot配方」,將能成功滿足消費者對於「無污漬」的需求,強化品牌定位。而由於Ivory所在的「溫和清潔劑市場」正在衰退,為了維持市占率,建議採取「降低生產成本與價格」,使消費者在選擇溫和清潔劑中,總是想到最划算的Ivory。

 

rplot

 

足球場圖 (Football Chart):最好-最佳的敏感度分析

 

另外一個我很常使用的圖片是「足球場圖」,他算是比較特別的長條圖。我時常要進行財務或市場大小的模型估算,這時會有一些參數,比如說在估計一個新產品銷量時,我們有「CFP 」(市場滲透率),這個參數,同時又要衡量在好、中、壞三種情境下的「市場大小」,所以我們可知 產品銷售額 = f(市場滲透率, 市場情境)。這時,我就會用下面這張圖,橫軸是不同的市場情境,縱軸是市場大小,bar 的頂端是CFP = 15% 時的產品銷售額,底端則是CFP = 5%時的銷售額,這樣我們就可以很清楚確認在不同情境下我最好的滲透情況與最差的滲透情況,產品銷售額的變化。

 

rplot

 

瀑布圖 (Waterfall Chart):價值的拆解分析

 

以前在BizPro做了一個專案,是在分析鴻海若併購矽品之後會帶來什麼樣的影響,當時做了許多質化與量化的研究,當時三個不同的綜效來源:成長機會、成本降低、以及交叉銷售,我用複雜的時間序列分析以及蒙地卡羅模擬估算出了最後的結果,此時卻不知道該怎麼樣呈現在簡報上。這時我的mentor Esther和Jerry就告訴我可以試著用「瀑布圖」來呈現我的分析結果。「瀑布圖」非常適合用於把「總量」拆解成不同「分量」的情況,像是要把合併後的新價值拆解成原始公司價值與綜效,這時就很適合用瀑布圖。而且!EXCEL 2016 已經支援瀑布圖的繪製囉!天大的好消息吧!

 

Rplot.png

 

盒狀圖 (Box Plot):呈現分佈的差異

 

最後,一定要推薦大家使用的圖形就是盒狀圖 (box plot),這個從國中基測就一直出現的圖表當然非常重要,他能夠有效地呈現不同變數的「分佈情況」差異。比如說,下面這張圖是在分析不同國家行銷案前後銷售額的差異,Period = before 代表行銷案前的銷售額、Period = after 代表行銷案後的銷售額,而橫軸則是國家,這張圖可以很清楚的看到:整體而言行銷案能夠提升銷售額,但在中國(CH)和義大利(IT)的效果卻不是很明顯,因此我們應該要花點時間跟當地的區域行銷經理聊聊,是不是有文化上的差異造成行銷案的結果不明顯,需要把這些差異釐清以作為未來規畫行銷案的依據。不過比較可惜的是,這張圖是我用R的ggplot畫的,EXCEL好像還沒有很方便的盒狀圖繪製功能。

 

rplot

 

 總結:Info-in → Info-process → Info-out

 

在這篇文章中,我只有簡單介紹一些視覺化的方法,其實Information-out還有很多東西,像是:如何設計簡報的story line、如何呈現簡報,或是與視覺化有關的熱圖 (heatmap) 、泡泡圖 (bubble chart) 等。我主要想達到的目標是:讓大家平常在做量化的報告時,能夠開始思考用什麼樣的圖形能夠說出最有力的故事。

 

最後,我想在recap一下資料分析的架構:一個大型的資料分析專案,常常會需要不同的人參與,從領域專家、專業的資料分析師與資料科學家、到資料工程師或市場調查研究員等共同參與。這些人員將在整個資料分析的專案流程中扮演不同角色。一般來說,資料分析時會有三個流程:「Info-in → Info-process → Info-out」,這個過程便是台大商學研究社 BizPro 教導的核心分析流程。其中「Info-in」代表著資料蒐集的過程,「Info-process」代表著資料處理與建模的過程,「Info-out」則需要有效率且有效果的把建模結果呈現給有決策權的人,並說服他們「資料分析是有價值的」,這樣我們才不會失業!

 

%e8%a1%a8%e6%a0%bc123

 

終於完成了第一篇系列文了!成就get!腦細胞已死 XDDD 希望能夠給大家一些收穫,有關 David’s Perspective 的最新文章,都會發布在大鼻的 Facebook 粉絲專頁,如果你喜歡大鼻的文章,還請您不吝嗇地按讚或留言給我喔!

大鼻觀點:https://www.facebook.com/davidperspective/

About David Huang

目前在台灣大學就讀統計碩士學位學程。我的研究領域是特徵表達與降維分析、序列決策模型、以及財務時間序列,我喜歡用商業的觀點切入大數據與資料科學!

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *