不透明的演算法:臉書調降「政治性」貼文觸及的疑慮
最近這段期間,許多台灣的政治人物或政治評論家,紛紛在自己的臉書粉專頁面上,不約而同表達了對近來貼文觸及大幅下降的疑慮。依現時公開揭露的資料,本文無法確知臉書於今年2月公告擬針對政治性內容(Political Content)貼文,進行減低受眾觸及的一項新測試計畫,是否已推行至東亞地區,然該公司確實已在加拿大、巴西、印尼等地以及針對美國本土的一部分用戶,暫時減少推送有關政治性內容的新聞訂閱(News Feeds,又稱新聞源)。
依據臉書官方說明,決定減少觸及的理由是:政治性內容僅佔臉書用戶所看到內容的6%,但即便是比例這麼低的政治性內容,也可能對個人的體驗帶來影響;另外根據歷來美國市場的臉書用戶普遍的意見反饋,多數人不喜歡政治性內容在新聞訂閱的貼文中佔比過高。
因此,臉書宣稱為因應用戶的需求,決定自今年2月起開始針對政治性內容進行測試調整。在此一測試下,臉書會運用機器學習模型,針對特定貼文(無論是來自於主流媒體、新聞機構、政治評論家、一般民眾或用戶自己的親友所發布)進行預測,判斷貼文內容政治性的或然率;或然率越高,在訂閱(追蹤或按讚)用戶端出現的頻率即會大大的降低。
誘發減少政治性內容之近因:川粉之亂
稍早於今年1月6日,大批親川普的右翼極端份子,以「停止竊取」(Stop the Steal,源自於川普的主張,認為在2020年底的總統大選,他的總統職位被他人所竊取)為訴求,集結於國會山莊,對國會當天確認拜登為總統當選人一事進行示威抗議,情勢卻越演越烈,最終導致暴動者大舉衝進國會大廈,造成慘烈傷亡,FBI逮捕了400多名涉嫌企圖叛亂推翻政府未遂的疑犯。
而根據事後的法庭文件及相關調查報告,這些支持川普的極端分子,大部分在數年前即開始利用臉書設立相關群組,繼而籌謀運動、凝聚共識、發起抗議、組織成員、散布虛假訊息、煽動仇恨思想,而本次亦屬有計畫地對國會大廈進行襲擊,也因此引發了批評者的強烈抨擊,認為社群媒體放任虛假新聞、錯誤訊息及暴力仇恨言論在平台上大量傳播,等於是間接參與了暴動。
而臉書及推特也因應川普本人利用這些平台,指摘競爭對手實施選舉詐欺,用不實指控及虛假訊息企圖煽動支持者發動或參與暴動的行為,於暴動翌(7)日,火速永久中止了川普的個人帳號,另外亞馬遜旗下的Twitch平台也隨後跟進禁止川普。
上述事件,可以說是臉書在2月初開始大刀闊斧減少政治性內容觸及的近因。社群平台如果仍延續往昔作風,僅扮演消極提供平台服務的角色,對於製造虛假訊息、鼓吹仇恨和暴力言論在平台上氾濫成災的亂象毫無作為,這樣的作法,已不符社會普遍的期待,對民主法治也將構成重大危害;反之,平台適時針對必要情況,積極訂出相關規範,嚴格執行,已然是當代民主社會下,社群平台被寄予的重任。
「政治性」內容意涵不明
欲減少政治性內容,首須釐清何謂「政治性」內容?又社群平台如何定義「政治性」內容?以何判準界定何者為「是」、又何者「非」政治性內容?
以美國為例,一個名稱涉及特定候選人從事特定公職競選的粉專,例如:競選總部設立名為「拜登,我們未來的總統」這類的粉絲專頁,很明顯的會構成政治性內容;那麼,如果是「黑人的性命攸關」(Black Lives Matter,又譯「黑命貴」)的相關群組呢?有關「#MeToo運動」的相關發文呢?
以台灣為例,如果某個人用戶貼文抒發對公共政策的意見、觀點,或探討政府施政利弊得失,例如:發文批評公共場所強制戴口罩的誡命規範,認為是對個人自由的侵犯;又如,貼文敦促他人應嚴格遵守戴口罩規範,共同維護社區公衛安全;又或,為文主張國家或政府機關未有法律授權之前,不得為施政目的而採集、使用人臉辨識相關技術等,這些是否屬政治性內容而受到審查,以致顯示在新聞源訂戶頁面上的機會大減?
再者,如發文者已被臉書識別確認為政治人物或政治評論家,即便其張貼的特定言論內容可能未直接涉及政治——例如僅單純為居家生活或與友人互動之描述分享,或只是抒發個人對某一社會現象的觀察或人生歷練感想——是否會因該用戶的身分具有政治屬性,致使其貼文較易被認定為政治性內容,而遭致被調降觸及之後果?凡此種種疑惑,迄今仍屬未明難解。
演算法運作隱含偏見
再者,由於「政治性內容」本身就是一種不確定概念,某項言論是否具有「政治性」,關乎該言論在該地緣區域所受政治、經濟、社會、文化、族裔等多重意涵的影響,本難求一致,更遑論臉書在全球高達十億用戶的基礎上,要梳理出一套統一可操作的定義,幾無可能。
然而,重要的是,即便各國對於政治性內容的意涵理解或有不同,社群媒體使用演算法辨別並篩選政治性言論的過程究竟如何運作,臉書並未提出具體說明,僅概括表示有關政治性之識別,主要仰賴經過訓練的機器學習模型,以查找政治內容的相關信號,並預測貼文是否與政治有關,希望透過測試評估改善此模型之運作,找出一套未來能夠更妥適識別政治性內容的最適方案,作為該公司長期政策走向之參考。
但是,越來越多研究指出,透過演算法篩選內容可能會隱含偏見(偏差),包括對種族及性別的偏見。
以一則相關案例來說,一項麻省理工學院針對亞馬遜出產的臉部辨識系統「Rekognition」所發布的研究報告顯示,如果被識別者為女性或膚色較深之人,「Rekognition」識別其性別的能力明顯變得更差;但如識別對象為膚色較淺的男性,就不會錯認性別,整個系統將女性誤認為男性的比例為19%,把膚色較深的女性誤認為男性的比例為31%,比例均不低。
另一項在2018年針對美國國會議員進行的測試,結果顯示「Rekognition」把高達28位國會議員誤認與警方掌有之嫌犯照片檔案資料庫(Mugshots)中的疑犯相匹配,錯誤率高。
發生性別偏見之情形另有一著名案例:數年前亞馬遜公司試圖使用人工智慧(AI)建構一套履歷篩選工具,希望藉由這項技術使求職申請的分類過程能更有效率。該系統使用了該公司10年來所收集的履歷,並創建了一套篩選的演算法。然而,因當時這些履歷多半來自男性,透過機器學習最終訓練的結果,系統學到的是對婦女歧視。亞馬遜事後對此表示,公司從未使用過這套篩選工具,原因是系統存在某些情況無法正常作用。
形成這些偏見的成因可能來自於:主導設計建構系統之人、系統如何被開發設計以及最終如何被使用等因素。演算法偏差會影響到平台如何透過影響用戶看到的內容,以及影響用戶過濾自己貼文的方式來對待用戶,用戶本身很難精準確定系統是否可能受到演算法偏差的影響,因為大多數人未必會將他們的新聞源與其他用戶的新聞源進行比較,尤其在平台幾乎是像在黑盒子裡面秘密進行系統演算的情況下,更形困難。
更何況,特定的AI或演算法如何被設計?又它們使用什麼樣的數據資料來幫助建構訓練系統?數據資料又是如何在機器學習中被訓練以建立模型基礎?電腦又是如何針對訓練數據所得模式,學習對所處理的訊息作出預測或判斷?以上這些專業技術知識,對一般用戶而言,可說是完全摸不著頭緒。
截至目前為止,也未有跡象顯示平台業者有意願公開演算法及機器學習模型,供研究人員進行研究審核,這也使得解決因AI產生的偏差問題變得更為棘手,更難以解決,但也更值得探究。
透明是問責的基礎
當社群媒體上源自於一般用戶的政治性內容變少,個別用戶對人們的影響力也隨之變小,進而也會影響人們參與平台使用的意願。人們為了獲取新聞資訊,可能轉向關注具有強大新聞編輯能力的專業媒體、Podcast或其他可信賴的獨立消息來源。
但欲將政治性因子完全排除於社群媒體之外,這種想法恐怕過於不切實際,因為民主國家人民有充分的政權,每個個體本身就是具政治性的主體,零政治性的社交網絡並不存在,就算是限制政治性言論這個措施本身,其實也是一項「極具政治性」的作為。要在平台上更妥適地運用政治性內容,就必須謹慎看待平台如何定義、衡量和產製這些內容。
目前平台仍缺乏實現這些過程的透明性,因此無法擔保歧視偏見不會發生。解決之道,或可考慮敦促平台使其演算系統運作的透明度提高——包含訓練數據、演算法、機器學習模型、AI決策邏輯相關說明,以及自我評估偏差等資訊的適當揭露——攸關重要。
另外,作為資訊終端接收者的閱聽大眾,為避免資訊可能被刻意操控(釋出或不釋出)或被偏頗表述,致無法獲取完整內容而影響決策判斷,應該化被動為主動,多擴充自己接收資訊的管道,保持開放彈性之態度,獲取多元觀點,同時對已接收到的資訊適時保持警覺存疑,不宜來者不拒,照單全收。對有疑之資訊內容,養成查證習慣,培養理性判斷的能力,是一個現代公民必經的考驗與訓練,不容忽視。
留言