魔球咒語:「大數據」真能人定勝天? | 陳子軒 | 鳴人堂
親愛的網友:
為確保您享有最佳的瀏覽體驗,建議您提升您的 IE 瀏覽器至最新版本,感謝您的配合。

魔球咒語:「大數據」真能人定勝天?

圖/美聯社
圖/美聯社

大數據鋪天蓋地而來,選舉要談網路的大數據、柴靜談空污要拿大數據、醫療健康要拿大數據、相親配對要拿大數據,運動場上更是早就開啟大數據時代。

美國「棒球之父」Henry Chadwick在現代棒球誕生之時,就將打擊率、投手自責分率(ERA)帶入棒球紀錄與報導,自此之後,棒球就一直是最常與統計學連結的運動,由於每次的投打對決都能產生出由變數交織而成的「事件」,隨著球數、壘上跑者狀況、投打慣用手等等,每一個場景都充滿著錯縱複雜的故事性。

1970年代末期,一個正職是工廠夜班警衛的棒球狂熱球迷Bill James,開啟棒球場上一連串的「賽伯計量學」(Sabermetrics)革命,在Michael Lewis以MLB奧克蘭運動家隊總經理Billy Beane為主角的《魔球》一書以及改編電影風潮之後,「大數據」儼然成為棒球世界的顯學。

除了棒球的特性與統計學是完美的結合之外,這股大數據浪潮延燒到所有你可以想到的運動,Billy Beane本尊日前應荷甲足球隊AZ Alkmaar之邀,將出任顧問一職,期待能將魔球模式複製在荷甲的小市場球隊身上。德甲的霍芬海姆球隊與北美國家冰球聯盟NHL都聘請著名軟體公司SAP為其提供運動數據服務,NBA也從球場攝影機連結電腦的運算,可以得出如球員跑動距離等等以往難以想像的數據。

運動場上的大數據真那麼神?

然而,儘管Billy Beane從1998年接掌運動家隊之後,靠著魔球哲學將運動家隊塑造成球季賽常勝軍,但是卻僅有一次在季後賽中挺進到第二輪,也讓Beane曾經失望地坦承「我這玩意在季後賽狗屁不通」(My shit doesn't work in the playoffs)。況且就算魔球真有其魔力,但是球場如人生,並不是靜態的,眾人紛紛採取相同戰略之時,競爭的動態性,抵銷了魔球的優勢。更別說馬克吐溫早已參透人類的三種謊言:「謊言、該死的謊言和統計。」

舉例來說吧, 2014年國家聯盟分區系列賽第四戰,面臨淘汰邊緣的洛杉磯道奇隊推出王牌左投Kershaw主投,七局下半,紅雀隊0:2落後,無人出局,1、2壘有人,Kershaw整個球季在沒有人出局1、2壘有人的狀況下,沒有被打出過任何安打;面對他的是這球季面對左投只有1成90打擊率的左打Matt Adams;在這個打席之前,Kershaw 7年生涯裡投的2604個曲球裡,沒有一顆被左打者打出過全壘打;Adams生涯面對左投投出的曲球打擊率更是只有1成11。然而,Kershaw的第2605顆曲球投出後,直接就被送到右外野牆外成為逆轉的三分全壘打,道奇隊也因為這一轟,提早打包回家。

我們要怎麼解釋這結局?當然有人說Kershaw只休息三天,這又是他投的第102球所以已經累了(但整季他100球以後也沒被打過全壘打啊!);更有大數據魔人解釋那顆挨轟的球水平位移只有5公分,比起Kershaw平均曲球水平位移少了2.5公分,事實是,有了上述林林總總這些數據,你只要挑對了數據,怎麼說都可以。

大數據之所以吸引人,其實是我們還相信「人定勝天」,認為人類將一切量化之後,就可以從這些數字中找到上帝遺留的餅乾屑。但我們忽略了一點,數字本身或許是中性的,但任何牽扯到人與社會的數據背後都不是純淨的,而且一旦大數據的海量資訊大到我們無可負荷,那麼任何關於數據的資訊都必然只是以「理性」、「客觀」包裝,實則由守門人一連串選擇後的故事。

大數據要有效,或任何量化研究具有解釋力,前提是原始資料(raw data)必須真確,否則只是從一堆錯誤,演算出更華麗的錯誤而已,即便是懂得秘傳咒語的巫師,要煉出仙丹妙藥,那也要準備好正港的蟾蜍眼淚和鳳凰鱗片吧,否則說不定煉出的是含笑半步癲?

所以我們不妨想想生活周遭的原始資料:夜市裡有多少實報收入的攤子?中央機關公布的統計數據裡,有多少是臨時一通電話要下屬單位隔天就要生出來的?教學評鑑有多少學生是因為綁著下學期的選課,所以只好虛應故事地題目都沒看就隨便點點?你有多少次到餐廳用餐後隨性填個問券,其實只是因為要把筆帶回家時少點愧疚?

當現實如同運動場上的一切都能被切細、重整、再製成無數個數據時,我們看到的也會是更瑣碎的現象(例如彭政閔在周二晚上的洲際球場、濕度76%、氣溫28度、二壘上有張正偉、晚餐吃620大卡的排骨便當、喝了480CC的運動飲料、前一天半夜幫女兒換了2次尿布後的打擊成績)。或許有人會說,大數據也會提供一名球員完整表現的單一數據啊?是的,WAR(Wins Above Replacement)值是號稱能反映一名球員完整能力的數值,但是這數值也會隨著各網站計算打擊、防守等各項比重與公式不同而有所改變。

運動場上相對直白且易掌握變項的環境況且如此,更別說人類社會所產生的數字充滿了多少隱瞞、扭曲與謊言。依賴單一數據評定的假全貌與切細的瑣碎真實同樣令人憂慮,但是在實證主義主宰所謂科學管理的時代氛圍下,我們彷彿瞎子摸象,只摸到屁股也沒關係,反正有摸有保庇。

過度神化了大數據,就像到了陌生地,死盯著螢幕裡的GPS壯膽,卻不看眼前道路的駕駛一樣,即使眼前有懸崖,還是呆呆向前衝,反倒是依賴肉眼在黑暗中摸索前行的我們,因為知道自己視野的侷限,選擇緩步前行甚至停步休息。

如果只因為認得那些個由0到9所組成的咒語,就覺得應許之地會為你芝麻開門,那就只好慢走不送。

 

留言區
TOP