顯示具有 math 標籤的文章。 顯示所有文章
顯示具有 math 標籤的文章。 顯示所有文章

2021年9月4日

由貝氏定理來看疫情初期就普篩是個徒勞無功的事

貝氏定理 ( Bayes' Rule ) 是讓我們能在很難直接從實驗直接獲得機率值時,用相關的條件機率值來計算出我們想要探索的情況出現的可能性。

1. 垃圾郵件中常常會有 money 這樣的字眼,那我們在做垃圾郵件的辨識機制,如果用 mail 中只要有 moeny 就評斷為垃圾郵件,如此正確的機率是多少 ?

2. Covid-19 的檢測出是陽性,能抓出多少比例真正陽性的人?應該做普篩嗎 ?  

我們先來看第一個例子 



假設我們從某一大時段研究那時段的所有郵件。

其中垃圾郵件( spam )佔 20%

從許多垃圾郵件中,我們觀察到有 8% 會包含 money 這字眼

而非垃圾郵件( han )中出現 money 字眼的有 2%

那我們可以從以上的資訊利用貝氏定理算出如果一個 email 中有 moeny 這字時就說這個 email 是垃圾郵件,這判斷正確的機率是多少。

設定垃圾郵件事件為 A , 有 moeny 字眼出現在 email 的事件為 B

我們現在要求的是 P(A|B)  ->  看見 moeny 條件下( B ) 其為垃圾郵件( A )的機率    

在上述資料我們有的數據是 P(B|A) -> 在垃圾郵件( A ) 中看到 money 字眼( B )的機率是 8%

以及 P(B| 非 A ) --> 在非垃圾郵件 ( 非 A ) 中看到 money 字眼 ( B ) 的機率是 1%

另外 P(A) 是垃圾郵件出現機率 20%

由以上數據我們可以算出所有郵件會出現 moeny 字眼的機率是

P(A)*P(B|A)+P( 非A)*P(B|非A) = 20%*8%+(1-20%)*1%=2.4%

email 中有 moeny 字眼出現且為垃圾郵件的機率是 P(A) * P(B|A) = 20%*8%=1.6%

P(A|B) =email 中有 moeny 字眼出現且是垃圾郵件的機率 / money出現機率 

也就是  P(A)*P(B|A) / [P(A)*P(B|A)+P( 非A)*P(B|非A)]=1.6%/2.4%= 67%

所以對於一家在做 email 伺服器的公司,要認定哪些字眼為 spam 的標準,應該可以用以上這種方式來估算正確率,公司可考慮正確率達到多高的字眼可作為 spam 的清單。  這些字眼是可以有 robot 在動態對客戶 email 伺服器中長期觀察和計算下浮現出來的。 

現在來看第二個例子



假設從確認染疫的族群中測出陽性的比率為 95%,從沒有染疫的族群中測試誤判為陽性的機率為 2%

目前全部染疫的人佔總人口 1%,那普篩的話,能篩出真的染疫者的機率是多少 ?  也就是當測試為陽性時真的是染疫的機率是多少?

這裡的事件有 A事件: 確實染疫    B事件: 檢測陽性  

我們要求 P(A|B)

而我們有的數據為 P(B|A)=95%     P(B|非A)=2%   P(A)=1%

整體測出陽性的機率為 P(A)*P(B|A)+P(非A)*P(B|非A)=1%*95%+99%*2%=2.93%

測出陽性且真的染疫的機率為 P(A)*P(B|A) = 1%*95%=0.95%

P(A|B) = 測試出是陽性且真的染疫的機率 / 測出陽性的機率

也就是 P(A)*P(B|A) / [P(A)*P(B|A)+P( 非A)*P(B|非A)]=0.95%/2.93%= 32.4%

看起來測出陽性者中其實只有 32.4% 的人是真的染疫的, 如此作普篩真的是蠻徒勞無功。

且會增加一大堆人很擔心自己染疫了,加重防疫和醫療量能的負擔。

當然如果測試試劑的準確率提高,誤判率降低的話,可能會好些,不過以這個例子裡的數字,跟實際狀況沒有差很多。

由貝氏定理看來台灣在染疫的人還不多的情況下不做普篩,積極採用邊境管制、疫調與個人清潔和隔離的方法是很有效率的政策。 

這讓我想到 機率思考 和 快思慢想 這兩本書,我們常常在看到測試劑說有 95% 的準確率,2%誤判好像也蠻低的,就覺得普篩找出染疫者準確率應該很高吧。 但在群體只有 1% 染疫的情況下,用貝氏定理真正算一算機率,測試出為陽性中真正染疫的竟然只有 32.4%,真的出乎我們大腦的直覺判斷外。

以上這些資料是 史丹佛的統計學導論 第二週中包含的內容,這是堂奠定基礎技能,為攻讀統計思維和機器學習方面的更高級主題做好準備的課程。 

是否覺得機率統計很有趣了呢 ?  



 


2021年3月30日

由 Netflix 數學科普片“數學密碼” 窺見數學和生活的關係

數學有用嗎? 有用到什麼程度? 

為什麼數學是宇宙和大自然的語言?

最近在 Netflix 看到一片“數學密碼” 紀錄片,我想任何在學的學生覺得數學枯燥乏味的話,都可以看看這部,感受一下數學有趣的地方。

數學密碼由馬庫斯.杜.索托伊博士主持,探討地球上生命和宇宙中息息相關的數學密碼。

目前我看到的總共有三集,

第一集 Magic Number : 探索一些支配世界和生命的數字

第二集 Nature's Building Block : 探索生物和大自然的最有效形狀

第三集 Prediction : 不管月蝕或犯罪,從中找出 pattern (模式)做預測


裡面會帶你到不同主題的場景,讓你腦洞大開,驚訝這種問題用數學竟然能解決。而有些數字和形狀竟然是大自然最有效運作的結果。

以下舉幾個有趣的主題 :

1. 蟬的蜇伏期

蟬的生命非常脆弱,天敵很多,不同的蟬群,蜇伏期( 幼蟲到蛻變成蟬的時間 )經過混種後,蜇伏期就會混亂,零零散散,有可能一出來後就全部被天敵殲滅了,所以他們需要最不容易混種的蜇伏期,以最大化成群蛻變成蟬並生存下來的機率,留下後代繼續繁衍。 那到底要幾年蜇伏期比較好呢 ?  這可是牽涉到公倍數的問題。

2. 聲音的和諧

音樂裡一些音程如 8 度、6度、5度、4度、3 度常常用到,因為他們聽起來很好聽 - 和諧度高。前述音程的上音f/下音 f 比率分別是 2/1 、8/5、3/2、 4/3、 5/4。 所以好聽的音樂並非可以隨便組合的,人的喜好是有數字密碼的,正如黃金比例那樣,什麼比例會讓人覺得好看。

3. 神秘的 𝞹  和 i

你知道航空站塔台指揮所有飛機起降是靠雷達運用虛數 i 的換算才能順暢完成? 你知道一個海港的比目魚最大條有多大竟然和算圓周的 𝞹 相關 ? 

4. 為什麼是六角形

看過愛爾蘭的巨人堤道 (Giant's Causeway)? 是否覺得這地形真是太不可思議了 ? 這些六角形住是怎麼回事? 還有個眾所週知的六角形 - 蜜蜂的蜂窩,是否好奇為什麼蜜蜂會做六角形的,不是方形,也不是圓形? 這原來牽涉到大自然其實是很 LAZY 的,一切都以最有效的方式達成。 

5. 吹泡泡的數學

泡泡為什麼是圓形? 很多泡泡結合一起又是什麼樣子 ?

6. 會算日蝕救了一整船的人

對於原始人來說懂得日蝕何時會發生就如神一樣的存在,但那其實是天文的數學

7. 火車站大廳人群的路線

人隨機走來走去竟然會有路線可循 ?  發現模式和干預

8. 數學和尋找罪犯

對於重複的殺人犯要如何鎖定 ?  

9. 猜猜 Jellybean 有多少個 ?

你說光目視就能猜對數量嗎 ?

10. Google Search 的 keyword vs 流感

從大家在用什麼 keyword 做統計就能知道流感是否開始流行


還有更多,這裡就不透露太多了。 

這部影片是個有趣的啟發,也許你會因此從中找到你想更進一步研究的主題。


你可能會有興趣的數學相關線上課程