葉多涵/科學的界限(四):控制變因越多越好嗎?
科學透過觀察自然(和社會)來尋找真理,並且會根據新的資料來修正錯誤。在不少人心目中,在「解釋自然」這個目標上,科學方法是唯一、最好、最正確的方法。本系列「科學的界限」六篇文章將從科學哲學的角度告訴各位,為什麼即使在實證研究中,科學方法仍然有其限制。
很多研究人員都有一種誤會,以為做統計分析的時候「控制」越多變因,會讓結果越可靠。在這裡,「控制A變因」意思是「只比較A值相同的樣本」,許多人誤以為這等同於「排除A變因的影響」。
這個誤會出現在許多學科,但在牽涉到複雜系統的研究主題中更是嚴重,例如生態學、流行病學、心理學和社會科學。在這些領域有大半的研究結論都是「在控制了A、B、C、D變因後,我們發現X對Y有影響」。
但其實有些變因不該控制,若控制了反而會造成錯誤結論。
第一個例子:「智商」和五大人格量表的「盡責性」(Conscientiousness)應該沒有什麼因果關係,但是如果我們控制了教育程度或職場表現後,會發現智商和盡責性有負相關。這是因為智商和盡責性都對念書和工作有幫助,所以當我們比較同樣成就的人時,智商高的人不用太盡責、盡責的人笨一點也沒關係。1
第二個例子:女性在職場上受到不平等的對待,但是如果控制了產業、職位和年資,會發現女性的收入好像沒有低於男性、只差一點點、或甚至較高。2這其實是因為只有非常有能力的女性才有辦法繼續在充滿歧視的環境中跟男性競爭和升遷。如果我們沒有控制職業,結果就會發現女性的收入低於男性,但是控制了反而變成沒有差別。幾年前Google發生性別收入不平等的爭論時,他們就用這種分析來宣稱女性的收入不低於男性。3
對撞變因和干擾變因
上述兩個例子中,因為控制了教育程度或職位這兩個變因,而造成錯誤的推論。不控制這些變因研究結果才會正確。背後的原因其實一樣:這兩個變因是對撞變因(collider)。對撞變因可以這樣描述:在研究X和Y的關係時,如果X和Y都會影響C,C就是對撞變因。4
控制對撞變因會造成假相關:兩個因素看起來有關,但其實這是用對撞變因限制過樣本的結果。但是我們不能因為害怕假相關,就決定什麼變因都不要控制。因為也有些變因的效果正好相反:不控制它的時候才會造成假相關。
例如父母的教育程度,可能讓小孩的發育時的營養比較好,所以小孩的智商比較高,同時高教育程度父母更加教育小孩要盡責,若如此,不控制父母教育程度的話,就會發現智商高的人比較盡責。在此,父母教育程度是干擾變因,應該要控制。
要是因果鍊太複雜?
然而,在許多研究題目中變因很多,組合成非常複雜的因果鍊(或者該說因果網路),充滿干擾變因、中介變因、對撞變因、工具變因……無法釐清誰影響誰,這時候分析起來就困難了。
例如這個研究問題:足球比賽中,黑人運動員會不會因為歧視,而比較容易被舉紅牌出場?這個題目中,可能的變因包括身高、體重、球隊所屬國家、球員得黃牌的次數、球員的位置、裁判的族裔、對手的族裔、對手被捲入犯規的頻率……你看得出來哪些變因應該要控制,哪些不該嗎?
有人拿同一組數據,找了29組分析師(共61人)問他們這個問題,結果每組人分析的方法和算出來的數據結果都不一樣,三分之一的研究結論是沒有影響,三分之二的研究結論是有影響。5 6
要是對撞變因已被控制?
更可怕的是,有時候研究人員並沒有打算要控制什麼變因,但是社會/大自然/世界/蓋婭已經幫你控制了某個對撞變因。
例如觀察醫院的病人時,發現得了X病的人大多也得Y病,於是以為是病理上有關係的併發症。這可能是因為只得其中一個病時,病人不會覺得有嚴重到需要去醫院。科學家如果只觀察醫院裡的病人,就會誤以為X和Y有因果關係。
例如有個假說是腦容量大的生物有比較高的創造力。但是維持巨大的頭腦很耗能,有害生存,而創造力則有益生存。如果我們只觀察了存活到現在的生物(當然,死掉的生物怎麼觀察創造力),就會發現兩者有正相關,好像證明了腦容量大會提高創造力。7實際上可能只是沒創造力又需要維持大腦袋的生物都死光了,但我們很難證明或排除這種可能性。
小結
科學講求實證,但如果我們能夠收集到的資料已經被控制了對撞變因,造成資料中有偏誤時,那就很難得出正確的結論。
最後,我要提一個對撞變因直接影響科學界的例子。想要將研究結果發表在期刊通常有兩個標準:研究本身夠嚴謹、研究結論夠引人注目。因此,當我們看任何一本期刊上的研究,會發現結果越特別的研究,研究方法傾向於越不嚴謹。因為如果研究方法很爛還能發到期刊上,那肯定是結論很引人注目。
- Asendorpf JB, Rindermann H, Woodley MA, Stratford J, Rabaglia C, Marcus G, Lane S (2012). Bias due to controlling a collider: A potentially important issue for personality research. European Journal of Personality 26:391-413.
- Corbett C, Hill C (2012). Graduating to a Pay Gap: The Earnings of Women and Men One Year after College Graduation. American Association of University Women.
- Wakabayashi D (2017-09-08). At Google, Employee-Led Effort Finds Men Are Paid More Than Women. The New York Times.
- 控制對撞變因造成的錯誤在不同的研究領域和情境下有時又稱為選擇偏誤(selection bias)、倖存者偏誤(survival bias)、柏克森悖論(Berkson’s paradox)或辛普森悖論(Simpson’s paradox)。
- Silberzahn R, Uhlmann EL, Martin DP, et al. (2018). Many Analysts, One Data Set: Making Transparent How Variations in Analytic Choices Affect Results. Advances in Methods and Practices in Psychological Science 1(3):337–356.
- 如果你學過一點統計,你可能會以為這些問題可以用AIC、DIC、WAIC等模型選擇(model selection)工具解決,但事實並非如此。模型選擇工具常會建議我們控制對撞變因,因為這讓本來不存在的效果看起來更顯著。此外,這些工具的原理之一是挑選簡單的模型,然而先前在〈科學的界限(二):科學能發現真理嗎?〉中,我也指出了簡單的模型不見得就比較正確。
- Overington SE, Morand-Ferron J, Boogert NJ, Lefebvre L (2009). Technical innovations drive the relationship between innovativeness and residual brain size in birds. Animal Behaviour 78(4):1001-1010.
留言