国产91在线无码_少妇人妻无码高清_91人妻中文字幕无码专区在线_国产福利在线播放_免费 无码 国产成年视频网站

被操縱的P值:科學論文中的數(shù)學胡扯

學術(shù)研究中,研究人員習慣用p值衡量實驗數(shù)據(jù)的可靠性。當p值小于0.05時,意味著僅因偶然性產(chǎn)生的概率小于5%時,結(jié)果具有統(tǒng)計顯著性。

但是,古德哈特定律指出當指標變成目標后,就不再是一個好的指標。P值就有這樣的特點,許多研究中的p值并不可靠,甚至是被操縱的結(jié)果。

p值操縱

我們經(jīng)常用0.05作為p值的臨界值(純粹是因為這是慣例),表示一個結(jié)果在統(tǒng)計學上具有顯著性。換句話說,當p < 0.05 時,即僅因偶然性產(chǎn)生的概率小于5%時,結(jié)果具有統(tǒng)計顯著性。

研究人員更有興趣閱讀那些報告有統(tǒng)計意義的“陽性”結(jié)果,而不是無意義的“陰性”結(jié)果的文章,因此作者和期刊都強烈希望呈現(xiàn)有意義的結(jié)果。為什么研究人員和期刊對陰性結(jié)果不感興趣呢?我們還不完全清楚,但有很多可能的原因,其中一些可能與我們自己的心理有關(guān)。對我們大多數(shù)人來說,陰性結(jié)果有點兒令人厭煩?!斑@兩組人沒有區(qū)別?!薄斑@種治療不會改變結(jié)果?!薄爸纗不能幫助我們預測y?!弊x到這樣的句子,我們會覺得又回到了起點,一無所獲。

陰性結(jié)果也可能與無法進行技術(shù)實驗有關(guān)。卡爾在微生物實驗室從事研究時,經(jīng)常不能在瓊脂平皿上培養(yǎng)出他研究的微生物大腸桿菌。這不是一個有趣的科學結(jié)果,而是證明了他在實驗室環(huán)境中能力嚴重不足。

第三種可能是否定命題比比皆是。陳述一個不正確的假設(shè)很容易。把單詞隨意組合成句子,它們通常都是錯誤的,例如:“郁金香咬?!薄把┗ㄈ诨F?!薄按笙笫区B。”在海量假命題中尋找真命題,無異于大海撈針。就像古老的棋類游戲《戰(zhàn)艦》一樣。棋盤上的大部分空間都是開放水域,因此,如果沒打中,就學不到很多東西。但是一旦擊中,就會學到很多東西——以此為基礎(chǔ),還可以學到更多。

出于所有這些原因,陰性結(jié)果不會得到大量的關(guān)注。我們從來沒有見過一個人僅僅因為大談她在實驗室里做不到的事情而獲得一份工作或贏得某個獎項。

科學家?guī)缀醵疾粫榱说玫较胍膒 值而進行科學欺詐,但仍有很多不易界定的破壞科學過程誠實性的行為。研究人員有時會嘗試不同的統(tǒng)計假設(shè)或測試,直到他們找到一種方法,可以讓他們的p 值跨過具有統(tǒng)計學意義的臨界值p = 0.05。這就是所謂的p值操縱,是一個十分嚴重的問題。有時他們會修改測試取得的結(jié)果。一項臨床試驗本來是要測量某種新藥對5年存活率的影響,但在沒有存活率發(fā)現(xiàn)任何變化后,研究人員可能會挖掘數(shù)據(jù),找出3年后患者生活質(zhì)量明顯改善的地方。

我們在分析所收集的數(shù)據(jù)時,經(jīng)常需要做出大量的選擇,確定我們的研究到底應(yīng)該包括哪些內(nèi)容。

例如,假設(shè)我想研究選舉結(jié)果對美國止痛藥的消費有什么影響,我可能會將選舉結(jié)果制成表格,收集止痛藥使用情況的調(diào)查報告,并獲取止痛藥在一段時間內(nèi)的銷售數(shù)據(jù)。這里有很多自由度。我看什么選舉呢?美國總統(tǒng)、參議員、眾議員、州長、州參議員、州眾議員、市長、市議員選舉,還是別的?關(guān)于消費情況,我看男性還是女性,還是兩者都看?看年輕人、中年人、65 歲以上的人、青少年,還是所有這些人的消費情況?我觀察的是新上任的民主黨候選人的影響力,還是新上任的共和黨候選人的影響力?我觀察的是被人看好的候選人上任造成的影響,還是不被看好的候選人上任造成的影響?換句話說,我需要控制止痛藥使用者的政治立場嗎?什么才算是止痛藥呢?阿司匹林、艾德維爾、泰諾、氫可酮、奧施康定,這些算不算止痛藥?我是要比較同一個地方在選舉前后的止痛藥使用情況,還是只比較選舉后不同地方的使用情況?在分析數(shù)據(jù)之前,我需要做大量的決定。考慮到這么多的組合,即使選舉結(jié)果和止痛藥的使用之間沒有因果關(guān)系,這些組合中也很有可能至少有一個組合會顯示出有統(tǒng)計顯著性的結(jié)果。

為了避開這個陷阱,研究人員應(yīng)該在查看數(shù)據(jù)之前明確說明所有這些選擇,然后測試他們事先承諾的那個假設(shè)。例如,我有可能決定測試那些達到投票年齡的成年男性和女性,看看他們是否會在看好的州長候選人選舉失敗后服用更多的止痛藥?;蛘?,我可能會測試在共和黨人取代民主黨人當選美國眾議院議員的那些地區(qū),看看兒童用泰諾的銷量是否會下降。無論我選擇看什么,重要的是我在分析數(shù)據(jù)之前就做出明確說明。否則,通過觀察足夠多的不同假設(shè),我總會得到一些有顯著性的結(jié)果,即使我找不到真正的模式。

但是,我們不妨從研究者的角度看一看。假設(shè)你剛剛花了幾個月的時間,收集了大量數(shù)據(jù)。你測試了你的主要假設(shè),最終得到了一些看上去有希望但不具有顯著性的結(jié)果。你知道,就這樣保持不變的話,不要說優(yōu)秀期刊,甚至其他所有期刊都不會發(fā)表你的研究成果。但你認為你的假設(shè)肯定是成立的,也許只是沒有足夠的數(shù)據(jù)支撐。所以你繼續(xù)收集數(shù)據(jù),直到你的p值降到0.05 以下,然后你立即停止收集數(shù)據(jù),以免它變回到閾值以上。

或者你可以嘗試一些其他的統(tǒng)計測試。由于數(shù)據(jù)接近顯著性, 選擇正確的測量方法和測試,也許能讓你跨過p= 0.05 這道關(guān)卡。當然,稍加修改,你就找到了一種能給你帶來顯著結(jié)果的方法。

或者你的假設(shè)似乎只對男性成立,而有統(tǒng)計意義的模式被包含在你的樣本里的女性淹沒了。你一看,哎呀,如果只看男性,你會得到一個有統(tǒng)計顯著性的結(jié)果。怎么辦?放棄整個項目,放棄數(shù)千美元的投資,讓你的研究生再推遲6個月畢業(yè)……還是只記錄男性的研究結(jié)果,然后提交給優(yōu)秀期刊?在這些情況下,為選擇后一種做法找一個理由似乎并不是那么難。你可能會對自己說:“我確信這種趨勢確實存在。我從一開始就在考慮將女性排除在研究之外。”

祝賀你。你成功地對你的研究進行了p 值操縱。

假設(shè)有1000名在誠實性方面無可挑剔的研究人員,他們在任何情況下都會拒絕p 值操縱。這些品德高尚的學者測試了上千個關(guān)于政治上取得的勝利和止痛藥的使用之間是否存在關(guān)系的假設(shè),但所有這些假設(shè)都是不成立的。在p= 0.05 這個水平上,單憑碰運氣,這些假設(shè)中就有大概50個假設(shè)會找到統(tǒng)計學上的支持。這50 名幸運的研究人員將研究結(jié)果寫下來,發(fā)給期刊,然后被期刊接受并發(fā)表。在其余950名研究人員中,只有少數(shù)人會不辭辛苦地寫下他們的陰性結(jié)果,其中只有幾個人能夠發(fā)表他們的陰性結(jié)果。

讀者查閱文獻時,會看到有50項研究表明政治結(jié)果和止痛藥消費之間存在聯(lián)系,也許還有為數(shù)不多的研究稱沒有發(fā)現(xiàn)任何聯(lián)系。讀者會很自然地得出結(jié)論:政治對止痛藥的使用有很大的影響,而那些失敗的研究肯定是測量了錯誤的量,或者是在尋找模式時出了問題。但現(xiàn)實恰恰相反,兩者之間沒有關(guān)系。之所以看起來有關(guān)系,純粹是人為因素導致的——哪些結(jié)果值得發(fā)表是由人決定的。

本質(zhì)上講,問題在于論文是否有發(fā)表的機會受它所報告的p值影響。因此,我們一頭撞上了選擇偏倚的問題。得以發(fā)表的那些論文是全部實驗的一個有偏差的樣本。在文獻中,有統(tǒng)計意義的結(jié)果被過度表現(xiàn),而沒有統(tǒng)計意義的結(jié)果則表現(xiàn)不足。沒有產(chǎn)生顯著性結(jié)果的實驗數(shù)據(jù)最終被科學家扔進文件柜里(現(xiàn)在則是被扔進文件系統(tǒng)中)。這就是所謂的抽屜問題(file drawer effect)。

還記得古德哈特定律嗎?“指標變成目標后,就不再是一個好的指標?!睆哪撤N意義上說,p值就具有這個特點。因為p值低于0.05對于論文發(fā)表來說是必不可少的,所以p值不再是衡量統(tǒng)計支持的好指標。如果科學論文是否發(fā)表與p值無關(guān),那么p值仍將是一個有效指標,可以衡量推翻原假設(shè)時得到統(tǒng)計支持的程度。但是,由于期刊明顯偏好那些p值低于0.05的論文,因此p值已經(jīng)失去了原先具有的用途。

2005 年,流行病學家約翰·約阿尼迪斯在一篇文章中總結(jié)了抽屜問題的后果,這篇文章的標題頗有挑釁性:“為什么發(fā)表的研究成果大多是虛假的”。為了解釋約阿尼迪斯的觀點,我們需要稍微偏離主題,探究一個被稱為基率謬誤的統(tǒng)計陷阱。

基率謬誤

假設(shè)你是醫(yī)生,正在治療一位擔心自己去緬因州釣魚時染上萊姆病的年輕人。釣魚歸來以后,他感覺很不舒服,但沒有萊姆病特有的環(huán)形紅斑。為了讓他放心,你同意檢查他的血液中是否有萊姆病致病菌抗體。

令你們沮喪的是,測試結(jié)果呈陽性。測試本身相當準確,但也不是100%的準確,有5%的概率出現(xiàn)假陽性。那么,病人患萊姆病的概率有多大呢?

許多人,包括許多醫(yī)生,都認為答案是大約95%。這是不正確的。沒有萊姆病的人檢測呈陰性的概率是95%,而你想知道的是檢測結(jié)果呈陽性的人患萊姆病的概率。事實證明,這個概率很低,因為萊姆病非常罕見。在萊姆病流行的地區(qū),每1000人中只有1人被感染。假設(shè)我們檢測1 萬人,那么可以預計有大約10個真陽性和大約0.05×10 000=500個假陽性。在那些檢測呈陽性的人中,只有不到1/50 的人真的被感染了。因此,即使檢測呈陽性,患病概率也不會超過2%。

這種混淆(以為病人有95%的概率被感染,而實際上不到2%) 應(yīng)該是一個常見的錯誤。這其實是我們的“老朋友”檢察官謬誤,不過它換了一種表現(xiàn)形式。我們有時稱其為基率謬誤,因為在解釋測試結(jié)果時,忽略了群體中患這種疾病的基礎(chǔ)比率。

如果測試的是一種非常常見的情況,那么基率謬誤不是什么大問題。假設(shè)你在為一位來自美國上中西部地區(qū)的年輕白人女性治療胃病時,決定檢查她是否有幽門螺桿菌感染。幽門螺桿菌是一種與消化性潰瘍有關(guān)的胃病病原體。與萊姆病的抗體檢測一樣,約5%未感染者的尿素呼氣試驗結(jié)果呈陽性。如果你的病人檢測呈陽性,那么她攜帶幽門螺桿菌的可能性有多大呢?也是1/50 嗎?不對,這次的可能性要大得多,因為幽門螺桿菌是一種常見病原體。在美國,大約20%的白種人攜帶幽門螺桿菌。假設(shè)有1萬人接受這種病原體的檢測,那么你會看到大約2000個真陽性結(jié)果,剩下的8000人中,這個概率大約為5%,也就是大約400人會得到假陽性結(jié)果。因此,在幽門螺桿菌檢測呈陽性的美國白種人中,大約5/6 的人真的攜帶這種病菌。

發(fā)表偏倚

說完這些,我們繼續(xù)討論約阿尼迪斯的觀點。在“為什么發(fā)表的研究成果大多是虛假的”這篇論文中,約阿尼迪斯對科學研究和醫(yī)學檢測結(jié)果解釋進行了類比。他認為,由于發(fā)表偏倚,大多數(shù)陰性研究結(jié)果都沒有發(fā)表,因此我們在文獻中看到的大多是陽性結(jié)果。如果科學家測試的是不可能的假設(shè),那么大多數(shù)陽性結(jié)果應(yīng)該都是假陽性,這就好像萊姆病檢測結(jié)果——如果沒有其他風險因素,陽性檢測結(jié)果大多是假陽性。

沒錯兒,約阿尼迪斯就是這樣想的。他的數(shù)學計算無可爭論。從他的模型來看,他的結(jié)論也是正確的。他還可以從我們之前討論過的論文中得到一定的經(jīng)驗支持:那些論文表明,許多發(fā)表在優(yōu)秀期刊上的實驗是無法復證的。如果這些實驗的許多陽性結(jié)果都是假陽性,就正好符合我們的預料。

值得商榷的是約阿尼迪斯的假設(shè)。要使大多數(shù)發(fā)表的成果都是錯誤的,科學實驗就必須像罕見疾病一樣:極不可能產(chǎn)生真陽性結(jié)果。但科學與罕見疾病不同,因為科學家可以選擇他們想要驗證的假設(shè)。我們已經(jīng)看到,科學家很好地適應(yīng)了所在專業(yè)領(lǐng)域的酬償結(jié)構(gòu):獲得酬勞的主要途徑是發(fā)表有意義的研究成果,而陰性結(jié)果很難發(fā)表。因此,我們可以預料科學家測試的假設(shè)雖然尚未確定,但有合理的可能性是成立的。這讓我們想到幽門螺桿菌的例子,大多數(shù)的陽性結(jié)果都是真陽性。約阿尼迪斯是過于悲觀了,因為他對研究人員決定檢驗的各種假設(shè)做出了不符合實情的假設(shè)。

當然,這都是理論上的猜測。如果我們真的想衡量發(fā)表偏倚的嚴重性,就需要知道:1)被測試的假設(shè)中有多大比例是正確的,2)有多大比例的陰性結(jié)果被發(fā)表了。如果兩個比例都很高,我們就不用擔心。如果兩者都很低,那就有問題了。

我們曾說,科學家傾向于測試那些大概率是正確的假設(shè)。這種大概率可能是10%、50%或75%,但不太可能是1%或0.1%。那發(fā)表陰性結(jié)果這個方面呢?發(fā)表得多嗎?在整個科學領(lǐng)域,發(fā)表的研究結(jié)果中大約有15%是陰性。在生物醫(yī)學領(lǐng)域,這個比例是10%。在社會心理學領(lǐng)域,這個比例僅為5%。問題是,我們無法從這些數(shù)據(jù)中得知,這到底是因為心理學家更不可能發(fā)表陰性結(jié)果,還是因為他們選擇了更有可能產(chǎn)生陽性結(jié)果的實驗。我們真正想知道的不是陰性結(jié)果在發(fā)表的結(jié)果中占的比例,而是陰性結(jié)果被發(fā)表的比例。

但是,如何才能知道這個比例呢?我們必須想辦法調(diào)查所有未發(fā)表的實驗結(jié)果,但這些結(jié)果往往被扔進了抽屜里。美國食品藥品監(jiān)督管理局FDA)的埃里克·特納找到了一個巧妙的方法來解決這個問題。美國的法律規(guī)定,任何研究團隊,只要進行臨床試驗(用人作為實驗對象來測試治療結(jié)果的試驗),都必須向FDA 登記報備,提交文件并解釋試驗是要測試什么,試驗將如何進行,以及結(jié)果如何測量。一旦試驗完成,團隊還需要向FDA 報告試驗結(jié)果。不過,他們并沒有被要求必須在科學期刊上發(fā)表研究結(jié)果。

這個制度為特納和同事們統(tǒng)計某一特定研究領(lǐng)域已發(fā)表和未發(fā)表試驗提供了便利。特納列出了74 個評估12 種不同抗抑郁藥物療效的臨床試驗,其中51 個試驗的結(jié)果已經(jīng)發(fā)表,包括48 個陽性結(jié)果(藥物有效)和3個陰性結(jié)果??吹竭@些已發(fā)表的文獻后,任何一名研究人員都會認為這些抗抑郁藥物通常是有效的。但在調(diào)查最初登記的所有實驗后,F(xiàn)DA發(fā)現(xiàn)情況并不是人們預想的那樣。一共74個試驗,其中38 個產(chǎn)生了陽性結(jié)果,12 個產(chǎn)生了可疑結(jié)果,24個產(chǎn)生了陰性結(jié)果??吹竭@些數(shù)字,我們有可能得出一個更悲觀的結(jié)論:似乎只有一部分抗抑郁藥物在某些情況下可以起到一定作用。

這是怎么回事?為什么成功率為51% 的臨床試驗,最終在94% 的發(fā)表論文中被報告為成功呢?一個原因是,幾乎所有的陽性結(jié)果都被發(fā)表了,而可疑或陰性結(jié)果中只有不到1/2被發(fā)表。另一個也是更重要的原因是,在已發(fā)表的14 個可疑或陰性結(jié)果中,有11 個被重新定義為陽性結(jié)果。

就像水手只能看到冰山露出水面的部分一樣,研究人員在科學文獻中只能看到陽性結(jié)果。因此,我們很難知道水底下有多少陰性結(jié)果。它們很難發(fā)表,即使得以發(fā)表,也常常被偽裝成陽性結(jié)果。如果藏在水下的結(jié)果不多,那么我們強烈支持被測試的任何結(jié)果。但是, 如果只能看到表面上的那些結(jié)果,而水底下還有大量的結(jié)果我們無法看到,我們就有可能受到嚴重誤導。

幸運的是,有一些方法可以估計水面下的冰山大小。元分析(同時查看多項研究)就是最有效的方法之一。通過元分析,我們就可以知道發(fā)表的文獻是否可能代表所有的試驗,知道它們是否反映了一些有問題的行為,比如p 值操縱、發(fā)表偏倚。如何有效地做到這一點,已經(jīng)成為統(tǒng)計學研究的一個熱門領(lǐng)域。

撰文丨卡爾·伯格斯特龍(Carl T. Bergstrom)(美國華盛頓大學生物系教授)、杰文·韋斯特(Jevin D. West)(美國華盛頓大學信息學院副教授)

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。

(0)
上一篇 2024年4月9日 上午8:35
下一篇 2024年4月9日 上午8:46

相關(guān)推薦