Facebook 資料科學家面試題:樣本數選擇

%e8%a1%a8%e6%a0%bc123

之前在一畝三分地上看到了一位網友詢問 Facebook 資料科學家面試的一道題目,是關於「樣本數」的選擇問題,我覺得挺有意思的也回覆了這位網友,在這邊跟大家分享一下:

假設 Facebook 使用者母體點擊廣告的點擊率 (click-through rate) 是  $latex p$,為了估計點擊率,我們蒐集了一組有 $latex N$ 個個體的樣本,計算出的樣本點擊率 (sample click-through rate) 是 $latex \widehat{p}$。令 $latex \delta > 0$,則  $latex N$ 要多大才能夠使  

 

面試問題解法

 

回答這個問題,我會建議要先說明自己解法的假設:

  • 令 $latex X_i,~ i = 1,~\cdots,~N$ 代表第 $latex i$ 個個體有沒有點廣告,有點的話 $latex X_i = 1$,反之 $latex X_i = 0$。
  • 假設我們蒐集到的樣本是一組隨機樣本 (random sample),也就是 $latex X_1,~\cdots, X_N$ 彼此間互相獨立而且來自相同的機率分配。

 

有了上述假設,我們可以知道  $latex X_i$ 來自 $latex Bernoulli (p) $的分配,其中  $latex p$ 是使用者母體點擊廣告的點擊率。從這組樣本得到的點擊率估計為 $latex \widehat{p} = \frac{\sum_{i=1}^N X_i}{N}$。該估計式的期望值與變異數為:

  • 期望值:
  • 變異數:由於 $latex X_1,~\cdots, X_N$ 彼此間互相獨立,可知

 

假設樣本數夠大,可以運用中央極限定理,或是說,由常態分配逼近二項分配的性質可以得知:

知道了樣本點擊率近似常態分配後,我們由 95% 的機率可以知道估計誤差 $latex \delta$ 在此時要等於兩倍的標準差,也就是:

其中使用 2 或是 1.96 其實沒有關係,因為樣本點擊率是「近似」常態分配。上面這個公式其實沒辦法拿來計算實際的樣本數,因為母體點擊率 $latex o \leq p \leq 1$ 是未知的。然而,由高中數學很容易知道, $latex p(1-p) \leq \frac{1}{4}$, 因此:

因此,只要樣本數蒐集的樣本數超過  ,我們就可以確認誤差小於 $latex \delta$ 的機率大於 95%。

 

面試題的測是目標

 

我猜這位網友面試的職位是 analytics 相關,會負責實驗設計 (A/B testing 等),所以面試官會著重考察統計抽樣的基本概念。樣本數對於實驗設計是一個重要議題:假設你要推一個新的 product feature,在知道使用者的回應是好是壞前,我們並不會希望太多使用者被影響,但同時我們也會怕蒐集的樣本不夠,使得測試結果不夠可靠。

 

這個面試題其實是滿基本的統計問題,在一般非 PhD 級的資料科學家面試,大部分的問題都不會非常困難,著重考察你工作中需要的基礎知識。畢竟在資料科學工作中,時常要額外閱讀論文、複習學校一些已經忘記的知識、以及研讀自己從來沒有碰過的領域。因此,大部分的問題都,而不是考察你是不是個統計博士。

 

有關 David’s Perspective 的最新文章,都會發布在大鼻的 Facebook 粉絲專頁,如果你喜歡大鼻的文章,還請您按讚或留言給我喔!

大鼻觀點:https://www.facebook.com/davidperspective/

About David Huang

目前於哈佛大學商學院攻讀量化行銷博士,曾任 Migo.tv Data Lead、Mastercard Data & Services 顧問、InrayTek 資料科學家。過去曾協助東南亞與大中華區的領先企業導入資料科學架構,解決使用者體驗優化、個人化推薦演算法設計、客戶偏好分析、新產品導入與訂價、客戶長期價值管理等重要商業問題。

6 Comments

  1. 想問為什麼 Bernoulli (p) 的變異數不是p(1-p)呢?
    還有後面為何是用兩倍標準差而不是兩倍標準誤(standard error)?
    感謝!

    1. 1. Bernoulli (p) 的變異數是p(1-p) 沒錯~但我們現在是在討論 \sum_{i=1}^N X_i / N 的標準差喔~
      2. 要稱為標準誤或標準差都可以,(\sum_{i=1}^N X_i / N) 的標準差就是該估計式的標準誤。我自己不喜歡說標準誤啦,因為很容易讓人混淆XD

  2. David你好
    認真拜讀了文章內容
    有兩個疑問想請教
    1. 在文章的一開始處我們是否該假設抽樣的樣本集為"無偏樣本" 讓我們的p_hat ~ p 論述更加完善呢

    2. 在文章中最後的結論抽樣數目N和母體大小是無關的 這樣的推論是否有什麼樣的適用情況呢?

    例如 : 考慮某事件的在台灣以及中國的支持度 由於樣本數與母體大小無關 所以我們只要抽取一樣數目的樣本就能夠針對各自兩的地方的支持度做一樣的統計論述(這樣是否正確?)

    1. 1. 我們已經假設了樣本是隨機樣本 (random sample),所以 p_hat 期望值會是 p 可以從這個假設推導出來喔~統計理論裡面並沒有「無偏樣本」這樣的定義,在想你可能指的是假設樣本沒有 selection bias,不過這點已經包含在 random sample 的假設裡面囉!
      2. 如果母體大小比較小,在這裡假設樣本是 Bernoulli 分配就是不對的,此時 $latex 、sum_i X_i$ 是超幾何分配,delta 就會受到母體大小影響喔!不過如果是台灣跟中國的例子,基本上母體都可以當作非常大,因此在做民意調查時抽樣大小的確可以設定在差不多大。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *