Facebook 資料科學家面試題:樣本數選擇

%e8%a1%a8%e6%a0%bc123

之前在一畝三分地上看到了一位網友詢問 Facebook 資料科學家面試的一道題目,是關於「樣本數」的選擇問題,我覺得挺有意思的也回覆了這位網友,在這邊跟大家分享一下:

假設 Facebook 使用者母體點擊廣告的點擊率 (click-through rate) 是  p,為了估計點擊率,我們蒐集了一組有 N 個個體的樣本,計算出的樣本點擊率 (sample click-through rate) 是 \widehat{p}。令 \delta > 0,則  N 要多大才能夠使  

 

面試問題解法

 

回答這個問題,我會建議要先說明自己解法的假設:

  • X_i,~ i = 1,~\cdots,~N 代表第 i 個個體有沒有點廣告,有點的話 X_i = 1,反之 X_i = 0
  • 假設我們蒐集到的樣本是一組隨機樣本 (random sample),也就是 X_1,~\cdots, X_N 彼此間互相獨立而且來自相同的機率分配。

 

有了上述假設,我們可以知道  X_i 來自 Bernoulli (p) 的分配,其中  p 是使用者母體點擊廣告的點擊率。從這組樣本得到的點擊率估計為 \widehat{p} = \frac{\sum_{i=1}^N X_i}{N}。該估計式的期望值與變異數為:

  • 期望值:
  • 變異數:由於 X_1,~\cdots, X_N 彼此間互相獨立,可知

 

假設樣本數夠大,可以運用中央極限定理,或是說,由常態分配逼近二項分配的性質可以得知:

知道了樣本點擊率近似常態分配後,我們由 95% 的機率可以知道估計誤差 \delta 在此時要等於兩倍的標準差,也就是:

其中使用 2 或是 1.96 其實沒有關係,因為樣本點擊率是「近似」常態分配。上面這個公式其實沒辦法拿來計算實際的樣本數,因為母體點擊率 o \leq p \leq 1 是未知的。然而,由高中數學很容易知道, p(1-p) \leq \frac{1}{4}, 因此:

因此,只要樣本數蒐集的樣本數超過  ,我們就可以確認誤差小於 \delta 的機率大於 95%。

 

面試題的測是目標

 

我猜這位網友面試的職位是 analytics 相關,會負責實驗設計 (A/B testing 等),所以面試官會著重考察統計抽樣的基本概念。樣本數對於實驗設計是一個重要議題:假設你要推一個新的 product feature,在知道使用者的回應是好是壞前,我們並不會希望太多使用者被影響,但同時我們也會怕蒐集的樣本不夠,使得測試結果不夠可靠。

 

這個面試題其實是滿基本的統計問題,在一般非 PhD 級的資料科學家面試,大部分的問題都不會非常困難,著重考察你工作中需要的基礎知識。畢竟在資料科學工作中,時常要額外閱讀論文、複習學校一些已經忘記的知識、以及研讀自己從來沒有碰過的領域。因此,大部分的問題都,而不是考察你是不是個統計博士。

 

有關 David’s Perspective 的最新文章,都會發布在大鼻的 Facebook 粉絲專頁,如果你喜歡大鼻的文章,還請您按讚或留言給我喔!

大鼻觀點:https://www.facebook.com/davidperspective/

About David Huang

國立臺灣大學統計碩士,喜愛運用資料科學解決複雜的商業問題,改善商業決策的品質。過去的專案經歷包括:外匯選擇權套利、股票投資組合設計、戲劇推薦系統、使用者觀看行為預測、聊天機器人機器學習開發、IoT產業文字探勘與產品分析、衛材存貨管理系統等。

2 Comments

  1. 想問為什麼 Bernoulli (p) 的變異數不是p(1-p)呢?
    還有後面為何是用兩倍標準差而不是兩倍標準誤(standard error)?
    感謝!

    1. 1. Bernoulli (p) 的變異數是p(1-p) 沒錯~但我們現在是在討論 \sum_{i=1}^N X_i / N 的標準差喔~
      2. 要稱為標準誤或標準差都可以,(\sum_{i=1}^N X_i / N) 的標準差就是該估計式的標準誤。我自己不喜歡說標準誤啦,因為很容易讓人混淆XD

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *