學統計3,為什麼偏見和雜訊難以避免?從收集數據Sampling談起

注:本文是和估值老師達摩德仁教授(prof. Aswath Damodaran)學統計的學習心得,目的是為了投資和生活學習一點點統計的思維模型,非專業統計,不涉及公式,課程視頻🔗:Statistics 101

前篇文章為學統計2,數據的類型和統計學的6大組成部分,這篇心得主要學習統計的第一部分:收集數據,主要方法是抽樣-Sampling。

小的時候學過盲人摸象的故事,摸到大腿的盲人覺得大象是一個柱子,摸到耳朵的盲人覺得大象是一個扇子。這些人都是用大象的一部分樣本來概括大象的全部特徵。顯然,他們都錯的離譜。

用一部分樣本來推估整個整體的特徵,這必然會導致偏見和雜訊的產生。因為我們就是在盲人摸象。

但另一方面,統計是一門科學。我們會誤以為統計的結果是一種客觀事實,有些有心人會利用所謂的“統計數據”來宣傳,包裝成事實,以達到自己的目的。

比如疫苗致死率的問題,有些有心人不會仔細研究背後的年齡層,也不考慮每天的自然死亡率,而只會利用致死率的數字來宣傳疫苗很危險。

了解一點點關於如何抽樣的知識,刻意提醒我們的大腦客觀正確的看待統計數據。

為什麼使用抽樣來收集數據?

Population vs Sample

  • Population,母體。
  • Individual,個體。
  • Census,普查。針對總體裡的全部對象做的研究,比如人口普查。
  • Sample,抽樣。通過抽取一部分樣本,用樣本的特徵來代表總體。

統計中因為時間/成本/工作量等等關係,沒有辦法做普查,常常會隨機抽取一些樣本,用很多的個體的特徵來概括母體的特徵。比如用1000人的樣本來概括所有國民的民調,用500個公司的樣本來推估所有公司在2020年的營運情況。

怎麼抽樣?

1.非隨機抽樣(Non-probability Sampling,non-random sampling)

統計時調查樣本的抽取不是隨機的,而是根據自己的目的來故意挑選某些樣本。

化妝品公司做的所謂的效果的統計資料,並不是隨機訪問使用的個人,而是公司特地招募的一批人。

2.隨機抽樣(probability Sampling,random sampling)

  • Simple Random,簡單隨機抽樣,在母體中隨機抽樣。舉例:民調時在全國的電話和手機名單中隨機抽樣1000人。
  • Stratified Random,分層隨機抽樣,先把母體分組,在從每組裡隨機抽樣。舉例:按年齡分組,比如20-35,35-50,50-70,70以上,每個組分別抽樣250人,總共1000人。
  • Cluster Random,整群隨機抽樣,把母體分組,隨機抽取一組或幾組。舉例:按地域分組,分為大台北/台中/台南高雄/東半部,然後隨機抽取2組,比如抽取大台北和東半部兩個組,每組抽取500人。

抽樣導致偏見的原因

即使是隨機抽樣,也有可能由於以下的原因導致偏見:

  • 自動排除。樣本自動排除了某些個體。比如如果做電話和手機民調,就自動排除了沒有電話和手機的人。
  • 自我選擇。有些個體比較好接觸到。比如新冠肺炎的篩檢確診率,省體不適者和陪伴的人比較會去做篩檢。
  • 沒有應答。有些個體不願意做出回答。比如某大選候選人號召其選民在遇到民調的時候不要回答。
  • 幸存者偏見。隨機的樣本裡不包含已經陣亡的個體。比如奧運會只看到拿冠軍的人很成功,卻忘記了有千千萬萬個人沒有辦法拿冠軍。

如何處理統計產生的偏見?

  • 意識到偏見的存在。對於統計者,要檢驗樣本有沒有隨機、自動排除、自我選擇和幸存者偏見等問題。對於資料使用者,也要思考同樣的問題。
  • 盡量修正。比如如果大選民調故意不回答的人,有可能其中8成都是支持某個特定候選人,可以手工教正,雖然沒法完美,但至少不對錯誤視而不見。
  • 正確敘述。比如統計共同基金的績效是否打敗ETF,就存在很多共同基金在半路上就陣亡的問題。這個問題無解,只能正確敘述:還存在的共同基金的績效是否打敗ETF.

抽樣產生雜訊的原因

即使抽樣沒有導致偏見,經由樣本特徵(sample statistic)推及母體特徵(population parameter),也不可避免的產生雜訊和誤差。雜訊和誤差是統計與生俱來的特性。

最簡單的例子就是丟硬幣,概率應該是50/50,但是如果只選100次樣本,結果很可能是49/51,會存在一定的誤差範圍。

如何處理雜訊-利用大數定理增加樣本數量

1.大數定理(Law of Large Numbers,LLN)

在獨立同分佈的條件下,樣本數量越多,則樣本的均值就會越接近母體的均值。

比如丟錢幣,100次不准,可以丟100萬次,就會無限接近母體的均值(50/50)。

不過也有兩個例外,一是非獨立同分佈,二是肥尾分佈。

2.独立同分佈-i.i.d.

i.i.d.-independent(互相獨立) and identically distributed(從同一分布而來)。

独立同分佈:指一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立

比如丟硬幣,正面朝上和反面朝上的概率都是50%。這是概率分佈相同;這一次正面朝上的結果並不會影響下一次的發生情況,這是互相獨立。

比如股票每年的收益率,漲跌的年份不是50/50,所以概率分佈不同;今年漲太多有可能會導致明年回調,所以不是互相獨立。

經濟學和投資中不存在獨立同分佈,可以利用弱大數定理。

3.弱大數定理

即使不滿足獨立同分佈的前提,在方查有限的條件下,樣本的均值還是會朝母體的均值靠攏,只不過靠攏的速度會比較慢。

如何處理雜訊-利用中央極限定理估計分佈範圍

1.中央極限定理(Central Limit Theorem,CLT)

中央極限定理的意思是即使母體不是常態分佈(Normal Distribution),我們從母體中抽取樣本的平均值也會呈現常態分佈。我們只要從一個固定的採樣當中作夠多的樣本平均,其均值分布會接近常態分佈。然後利用樣本均值的常態部分的特徵來推導母體的特徵。

比如漁夫養了一水池的魚,怎麼知道魚的平均重量和重量的大概分佈範圍呢?

可以撈100條出來。然後在這100條的樣本裡,隨機抽取20個數字拿來平均。這些均值的分佈是常態分佈。然後再用這個常態分佈的均值來估計整個魚池裡所有的魚的平均體重,也可以估計有多少比例的魚介於一個或兩個標準差的範圍內。

2.切比雪夫不等式(Chebyshev’s inequality)

即使不是常態分佈,也可以描述絕大多數個體的分佈範圍。

在常態分佈中,2/3的概率分佈在1個標準差範圍內,95%的概率分佈在2個標準差內。

切比雪夫不等式描述75%的概率分佈在2個標準差內,88.89分佈在3個標準差之內。

總結:

本文學習統計學對於數據研究的第一步:收集數據。

因為金錢、時間和工作量的關係,我們沒辦法研究母體裡的每個個體。只能抽樣一部分個體,用這部分樣本的特徵來概括母體的特徵。

抽樣的結果必然會帶有偏見,要盡可能做到隨機抽樣,意識到偏見存在並盡量修正,實在無法修正也要正確的描述統計的結果。

抽樣的結果本質上是以偏概全,也必然會有雜訊存在。可以利用大數定理,增加抽樣的對象,因為抽樣越多,樣本的特徵就越接近母體的特徵。

還可以運用中央極限定理,中央極限定理告訴我們只要從一個固定的採樣分布當中作夠多的樣本平均,其分布會接近Normal Distribution。

不僅做統計的人要要意識到統計的偏見和雜訊,我們日常中面對統計結果的時候,也要考慮到這個結果是有可能帶有偏見和雜訊的。

關於中央極限定理的其他相關資料:

可汗學院的教學🔗:central limit

黑天鵝的作者Taleb的教學:https://www.youtube.com/watch?v=bfM9efdStN8

現實運用:Real-world application of the Central Limit Theorem (CLT)

The Central Limit Theorem – With Examples in Python

剖析深度學習 (1):為什麼Normal Distribution這麼好用?

Leave a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *