Contents ...
udn網路城邦
【科研】統計與謊言
2020/01/10 13:39
瀏覽12,873
迴響6
推薦22
引用0

我在《美國崛起時代的治理哲學》一文中提到,美國從19世紀後半開始,隨著報紙、電報和電話的先後普及,公共論壇上的雜訊聲量也大幅提升,控制大衆媒體的富豪毫無顧忌地扭曲事實、黨同伐異。看不過去而出面針砭譏諷這個現象的,也包括了名作家馬克吐溫;他在1907年出版的《Chapters from My Autobiography》中,寫下了這個句子:“There are three kinds of lies: lies, damned lies, and statistics.”“ 謊言分為三個等級:謊言,該死的謊言和統計數據。”

馬克吐溫自稱是引用19世紀英國首相Benjamin Disraeli的名言,不過後人查無實據。這種僞托或誤引(Apocryphal Quote)在互聯網普及之前很常見(參見前文《真理只在大砲的射程之內》)。然而不論那句話原本是誰説的,我們可以確定在一百多年前,利用統計數字來撒謊,已經是個非常普遍的伎倆。

統計特別適合被用來撒謊有幾個原因:首先群衆會被專業的表象迷惑;其次用一個數字來總結背後複雜的考慮,先天上就方便讓非專業人員接受;與此同時,又遮蔽了許多計算上的選擇,給予總結者很大的主觀操弄空間。所以統計在撒謊上的應用,其實是僞造數字來過度簡化論證過程的一個特例;即使不用統計,也可以達成同樣的目的。

例如王貽芳所長就非常喜歡利用數字來造假。他在大對撞機計劃報告中(參見https://www.yuanben.io/article/2HBDRN3NWDG0Y8TH7NR22HAF76UNFFCZDUO83IW69K3R2JFLDV ),聲稱前半的CEPC只需要360億人民幣,加上後半的SPPC之後,全部費用在1400億人民幣以下。我在《回答王貽芳所長》一文中已經詳細解釋過,所有可以客觀評估的事實證據,都指出建造費用應該至少在1000億美元這個數量級,這還不包括建成之後運行幾十年所需的預算;後者一般和前者大致相當。

2019年底,科普作家醋醋的一篇文章(《楊振寧的最後一戰》,參見https://www.huxiu.com/article/329808.html )又引發了大衆對大對撞機這個話題的關注和討論。其間,專業知識和經驗處於世界頂尖級別(尤其是明顯高於王所長)的趙午教授撰文(參見https://zhuanlan.zhihu.com/p/97982982 )指出王所長的預算並不包括預研新技術所需要的“大量人力和經費”。接著,許許多多來自建築和投資行業的專家也質疑,光是CEPC的徵地和土建費用就必然顯著高於360億。其實預算數字中真正最可疑的是要引進歐美儀器所需的龐大費用被嚴重低估,卻因爲太過含糊而無從討論起,更別提檢驗了。然而這仍然不影響高能所的公關卒子繼續在媒體上堅持總預算“只有”1000億人民幣,可見這種數字烟幕的威力之大。

我在前文《常見的狡辯術》之中,並沒有列舉這個伎倆,這是因爲它基本上是用數字來撒謊,屬於强辯而不是狡辯的範疇。醋醋的文章中提到王所長在强推大對撞機計劃的過程中,與超弦陣營過從甚密,有明顯而公開的協作;高能所的文字打手們也是睜著眼睛説瞎話,矢口否認,這同樣屬於直接撒謊,不算是狡辯。

當然,如果能加上幾個層次的統計處理,那麽對錯誤數據的遮蔽效應就會更强。例如我在《台灣能源供應的未來》一文中討論過的,西方對甲烷排放所做的統計,就非常可疑:NASA的衛星可以探測到美國本土有一大堆未知來源的甲烷(參見https://www.jpl.nasa.gov/news/news.php?feature=7535 ),一些白左市鎮因此而開始禁用天然氣(參見https://www.nytimes.com/2020/01/05/us/bellingham-natural-gas-ban.html ),然而在歐洲人所做的統計資料庫(叫做EDGAR,Emission Database for Global Atmospheric Research,全球大氣研究排放數據庫,這是全世界都引用的權威統計,參見https://data.worldbank.org/indicator/EN.ATM.METH.KT.CE )之中,卻基本看不到對應的數字。

這裏我詳細討論一個細節:天然氣管綫在鋪裝或維修之後,必須進行清理;在美國理論上應該使用氮氣,但是實際上工人貪圖方便,經常用手邊現成的高壓天然氣來吹除雜物,每搞一次就會排放近100萬立方英尺的甲烷到大氣之中。這不但會大幅促進溫室效應(甲烷比二氧化碳強84倍),而且有爆炸的危險,USCSB(United States Chemical Safety and Hazard Investigation Board,美國化學品安全與危害調查委員會;只能寫事故報告,沒有懲罰肇事方或修訂法規的權力)屢勸不止(參見https://www.youtube.com/watch?v=rjxBtwl8-Tc )。這種違規行爲,連美國的工業安全主管單位(OSHA,Occupational Safety and Health Administration,職業安全與健康管理局)都眼不見爲净,怎麽可能被歐洲人包括進有關氣候變化的甲烷排放統計裏面呢?

另一個用統計來撒謊的例子,是我在《自由撒謊的美國政府和媒體》一文中討論過的,美國每年被警察槍殺的人數。幾十年來,FBI(Federal Bureau of Investigation,聯邦調查局)的UCR(Uniform Crime Reporting Program,統一犯罪報告程序)每年都會公佈一個統計結果,一般是300多人次,所以這也一直是全世界都引用的數字。但是FBI忘了提醒大家一個細節,也就是這個UCR報告不是强制性的,而是由地方警察局自行決定是否參與,事實上只有不到1/4的警察單位上報統計資料,但是這一點並不廣爲人知。

到了2014年,因爲一連有好幾個警察隨意殺人的事件,引起了公衆的注意,終於有媒體試圖自行做獨立的統計。其中最知名的是《華盛頓郵報》,他們在2015年每天掃描地方小報的新聞,最後纍積到990人次。這其實已經是警察知道媒體在盯著看之後的結果,而且只是個下限,因爲必然有遺漏。有統計專家估計了必要的修正,得到1240人次的結論(參見https://en.wikipedia.org/wiki/Police_use_of_deadly_force_in_the_United_States )。考慮人口的差別,這相當於每年警察在台灣自行決定要槍斃90人,香港28人(美國人囉嗦香港警察的執法手段時,這是最直接了當的反駁),大陸5256人。

其實我之所以會想要討論用統計來撒謊這個話題,是在上周忽然想到美國在過去幾十年,富豪集團牢牢地掌握了政治、經濟和宣傳的權力,使得中產階級的生活水準停滯不前(參見前文《大停滯的真原因》),那麽美國的工業意外事故發生率可能也會如同工人的收入水平一樣,不再有進步。先進國家和開發中國家的一大差別,就在於對人員安全性的重視和投資程度要高得多,那麽照理來説,隨著時間的流逝和GDP的增長,致命工業事故發生的比率也應該逐年降低才對。

我先找了德國的資料(參見https://www.eurofound.europa.eu/publications/article/2016/germany-number-of-occupational-accidents-at-all-time-low ),發現2004年有949起致命事故,到2014年,降到了639起(總就業人口是3990萬,所以比值是每十萬人1.6;我沒有找到德國藍領佔總就業的比率,假設是40%,那麽致命工傷率是每十萬人4.0,約為美國的1/3;見下文),大約比十年以前減少了1/3。這是很大的降幅,就算人口和就業有些波動,也不會影響定性的結論。

然後我去看美國的資料,發現從來沒有人認真研究過這個議題,好不容易找到BLS(Bureau of Labor Statistics,勞工統計局)的CFOI資料庫(Census of Fatal Occupational Injuries, 致命職業傷害普查;參見https://docs.google.com/spreadsheets/d/e/2PACX-1vS1gpN11EW3qkgY5EithtPdfTnSG2H7xpKR4JlYHiMpxLJdkW6NYOsLhlViQ0KB4Z1S-X6P9WYR5tRh/pubhtml ),裏面的統計方法卻有一個明顯的錯誤。簡單來説,從2008年(在該年統計方法有變化,前後的數據不能相提並論)到2018年,年度工業事故死亡人數分別是4423和4493,反而增加了。不過勞工統計局認爲在這段時間,就業人口從1.47億增加到1.57億,所以結論是工傷致死率從每十萬人3.3件降到3.1件,10年下來大約減少了6%。

但是要算工傷致死率,不應該用就業總人口為分母。這是因爲99%以上的工傷發生在藍領工作上;坐辦公室時的死亡一般並不列為職業意外致命事件。所以我們必須只考慮藍領工人;而在過去幾十年,美國的製造業不斷外移(這一點和德國有很大的不同,參見下圖,紅綫是美國,灰綫是德國),所以藍領工作佔總就業人口的百分比一直在下降。從上圖中的藍綫可以讀出,2008年美國就業崗位中藍領的比率是23.2%,亦即3400萬人,到了2018年降到20.7%,對應著3240萬人。這樣修正過的工傷致死率,在2008年是每十萬人13.0,2018年則是13.9,實際上是上升了7%。

事實上,在以上的分析中,除了把總就業人口改爲藍領工人的數目之外,我還必須做出好幾個額外的決定,包括用誰的數據、選擇哪個起始年份、終點年份、用工人還是工時、用藍領還是製造業、用總事故死亡數(BLS表格中的“Total Deaths”)還是净死亡數(“Preventable Deaths”)等等。每個不同的選擇都會給出不太一樣的答案;我盡力誠實、稱職地挑出最合理的選項,但是如果換成其他人就不能保證他願意或能夠做到這一點。換句話說,在統計分析的過程本身,就充滿了做主觀扭曲的誘惑,所以正確的結論其實是很罕見的。

有誰推薦more

限會員,要發表迴響,請先登入
迴響(6) :
6樓. K.
2020/01/13 14:24
方舟子不是個例,中國大陸的科普作者普遍有一個問題,如果他們面臨的話題和學術界特別是外國學術界的意見相左(例如民間的迷信和偽科學),他們可以很好地辨別,但是如果涉及學術界特別是外國學術界本身的造假,他們毫無抵抗能力,完全沒有警覺,甚至意識不到應該警覺。這不是理性的態度,而是更加高級的迷信。
是的。我從開始與大陸社會有接觸開始,就注意到他們對西方學術界的無條件崇拜和對英美宣傳的無選擇接受,所以已經多次寫稿批判。其實西方學術界一樣有假大空問題;即使普及程度還沒有大陸嚴重,在胃口和技巧上,早已超出一般中國人民的想象。 王孟源2020/01/14 05:11回覆
5樓. 無知者,無畏
2020/01/13 09:38
已在死胡同的高能物理

記得王兄在其他文章中提到過高能物理的困境,數十年來並無實質性突破的主要原因是低處可採摘的蘋果已經摘完,高處的蘋果,實際上還沒有看到影子。

高能物理的現狀是,大量的學術菁英若干年前被忽悠進這個毫無希望的巨坑,這些人的名,利和慾望並沒有被有效的轉移到其他有前途的領域,而且他們還在接著忽悠新一代的青年才俊進入這個巨坑。

正是這些人的客觀存在,他們的影響力也就存在,通過各種手法接著忽悠政府對他們進行投入的慾望就一直存在。按照他們自己的說法,必須的有大項目,才能有影響力,直白一點,他們想要挖更大的一個坑,才能吸引更多資金和人才。

王貽芳和丘成桐都是非常能忽悠人的人,他們那套理論,讓很多不明就裡的人相信。作為中央政府,如果不從戰略上進行調整,把聚集在這個里領域的人員適當疏散(大禹治水的方法),這個問題就會永遠存在,說不定哪天就把文科出生的決策層忽悠進溝裡。

我在2016年就說過,只有王貽芳提早退休,國家的財政安全才有保障;但是這似乎不是中共體制能力所及的改革步驟。

美國的高能物理界,在1993年牛皮被戳穿之後,政壇根本不再理他們。最新的對撞機,比以前的Tevatron還小,是用來做核子物理的,和高能物理無關。

王孟源2020/01/14 05:16回覆
4樓. 芳草鮮美落英繽紛
2020/01/13 07:07
我認為科學家謊報科研計畫所需的預算,和對科研結果造假是同樣嚴重的事。科學研究的基本精神之一就是追求對事物的客觀、定量、精確地描述和分析。 擬定科研計畫是這種基本精神的實踐,應該力求準確地估計預算。雖說有誤差不代表不科學 (誤差也可以客觀、定量、精確地描述和分析),但大型科研計畫的預算總是低報而沒有一次高報,這是明顯的系統性誤差。相關科學家們長期容許這個系統誤差存在而不去修正,完全可以被認定是有意的造假行為。任何接受過初等科研訓練的學生都明白這個道理,也都應該引以為恥。
問題是對撞機這種東西,只此一家,別無分號。一路建、一路增加預算,一次提升50%,政客很難説不;但是每兩年提升一次,十年五次,預算成了原本的750%,可能把王貽芳抓起來問責嗎?不可能的,因爲錢都已經花了,總要有人能用,最後高能所還是吃香喝辣;他們也能預見到這樣的情形,所以有恃無恐。 王孟源2020/01/13 08:06回覆
3樓. 狐禪
2020/01/12 13:41
現今統計最大的問題在於衙吏及媒體只認得數字,但對這些數字為什是這般大小,該不該是這般大小,卻毫無批判能力。但這能力的培養並不需要什麼西方的學問,中國的史學修養就是在分析這類資料,只是不用數字,而是各項事件的敘述與排比。這並不奇怪,因為「觀微知著」一直就是物理學與史學在研究的事。
這裏的問題在於,不但非專業人員很難看穿統計造假,就是專業人員遇到含糊搪塞也往往無法可施。王貽芳的數字明明極不合理,但是他的預算原本就是特意寫得含糊難懂,不論外人怎麽質疑,高能所總能裝作沒有聽到,繼續堅持其結論。 王孟源2020/01/13 00:21回覆
2樓. 世界对白
2020/01/11 07:55

醋醋的留言:数据本身不会撒谎,但撒谎者需要数据。

之前的留言:感谢王老师的肯定。

我最近讀了一篇方舟子的訪談記錄(http://www.xys.org/xys/netters/Fang-Zhouzi/interview/uwashington.txt ),覺得他誤入歧途得非常嚴重。他一開始打假用意是好的,但是不分輕重緩急,時間久了,成爲網紅,更加信口開河,隨性褒貶。我以前就説過,我不想成爲網紅名嘴,正是因爲如果要討好大衆讀者,必然會使討論的品質下降;更何況方舟子的專業知識層面,並不是特別廣汎,偏偏他又沒有自知之明,不懂的事也硬要插嘴;對客觀事實和理性邏輯又沒有絕對的堅持,往往選個立場然後走極端。例如轉基因這事,雖然目前所有被批准的轉基因作物都沒有發生安全問題,但這並不代表未來不會有問題;尤其美國財閥公開以人命換利潤,再碰上假大空盛行的學術界,轉基因作物絕對是必須由政府嚴格監管,然後謹慎、緩慢推進的。上個月剛剛公佈,一個實驗性的轉基因乳牛出了問題,就是一個警示訊號(https://hoards.com/article-26865-setback-slows-pathway-for-gene-edited-dairy-cows.html)。

其實假大空,中外皆然;正因爲這問題在中國學術界比較嚴重,更應該只挑最離譜的來專注打擊。如果方舟子真的在乎打假,就應該專職來做,而且絕對小心嚴謹,寧缺勿濫。結果他反其道而行,隨便哪個教授被舉報給他,他就出面斥駡;我在四年前開始談大對撞機,這明明是遠超他專業能力的話題,他卻也插嘴,稱我為“科妄”。他這句話不只是可笑,而且是在最關鍵的假大空問題上幫倒忙。

假大空對國家社會的損害,是可以估計的:一個靠假造論文成名的院士,所造成的損害,大致是幾百萬美元;一個沒有意義的研究計劃,一般是浪費幾千萬美元;但是大對撞機是千億美元級別的坑。就算方舟子能成功打下幾十個假院士,他的正面貢獻也只是一億美元級別;但是他隨口在大對撞機這事上攪和,潛在的負面危害是千倍。很明顯的,除了虛名之外,他的實際貢獻是負值。

大對撞機成爲一個話題之後,我就一直堅持以其為批評的核心重點;討論其他假大空,都是媒體先過度炒作,我才會置喙,其目的一方面是嚇阻公關吹噓,另一方面是爲了讓讀者明白物理界的風氣敗壞,方便大家接受整個高能所都在賣國的事實。

醋醋對國家已經有了很大的貢獻,我希望他以方舟子的例子為警惕,繼續專注在學術界最大的危害之上,保持嚴謹的態度,對事實細節追求100%的正確。正因爲端正中國的學術風氣,還有很長的路要走,我們這些良心人,必須脚踏實地,一步一個脚印,不要被知名度衝昏了頭。

王孟源2020/01/11 09:02回覆
1樓. 芳草鮮美落英繽紛
2020/01/11 05:52
統計數字中的分母常常是用來大作手腳的地方,尤其是為了要提取更多資訊而對數據作細分的時候。比如說從每百萬人死於槍擊的人數中提取黑人的人數,這就會造成誤導,正確應統計每百萬黑人中死於槍擊的人數,後者排除了黑人佔總人口比例本來就少的問題。

另外還有一種是對小概率事件進行沒意義的統計解讀,比如說某個郡的某罕見疾病發生率是全州平均的好幾十倍,但若全州一年也沒幾個案例,發生地自然就顯得特別突出。

關於美國工業事故發生率,我猜測人命價值變化是原因之一。王先生曾提過美國的人命價值有一固定公式可以換算成金錢,那只要提升安全系數的成本高於繳保費,公司就有動機用錢買人命。最近美國的預期壽命開始下降,我懷疑是醫療產業利益鍊開始以底層人的生命換取邊際利潤了。

關於建造大對撞機,楊先生的文章裡已經給高能物理學家指出了活路,即尋找新加速器原理。我認為這個研究方向值得合理的投資,既得利益者們也應該可以申請到足夠他們退休養老的經費。就不知為何他們仍如此貪婪,非建大對撞機不可。
是的,統計造假有4類常見的手段:直接假造數據、排除不方便的資料、利用既有噪音、呈獻無實際意義的結果。正文中其實都涵蓋了,只是沒有詳細解釋。

美國的企業開始以人命換取利潤,正是我做文中那個研究的初衷。這種現象在開發中國家很普遍,在先進國家卻是罕見的;又一次印證了美國的衰落。

王貽芳在過去四年,已經拿了兩次超過百萬美元的大獎:頭一次是美國的基礎物理突破獎,Witten是評審,第二次可能是跟風吧。基礎物理突破獎是Witten的富豪粉絲設立的,除了偶爾給天文物理(還有一次給了凝態物理)之外,高能物理的部分一直是Witten的熟人輪流拿,唯一的例外就是2016年特別給中微子物理,這才包括了王所長。但是Witten有不到十個知名的學生(我認識其中兩個),大部分還沒有拿到獎/錢。你想他對王貽芳如此關愛,後者難道不是感激涕零嗎?我以前解釋過,高能理論要活得滋潤,必須有像大對撞機這樣超級費錢的項目,才能巧立名目,雨露均沾。王所長和丘成桐已經反復說過,大對撞機會吸引成千上萬的國際物理專家到中國;你想想,這些“物理專家”除了來賣儀器的實驗學家之外,有多少會是做超弦的?所以高能所或許憑著中微子實驗和新對撞機原理探討就能在錢堆裏游泳,但是超弦界卻是非要有大對撞機不可的。
王孟源2020/01/11 06:55回覆