生成式AI的善與惡(一):ChatGPT為何成為當代顯學?

聯合新聞網 吳維雅
人工智慧公司OpenAI於去(2022)年11月發布ChatGPT聊天機器人後,...

ChatGPT浪潮席捲而來

自從人工智慧公司OpenAI於去(2022)年11月發布ChatGPT聊天機器人後,生成式人工智慧(Generative Artificial Intelligence,下稱「生成式AI」)躍然成為全球熱議的話題。

目前僅知除若干限制外,ChatGPT幾乎能針對任何主題,透過文字聊天模式與人類進行長時間、開放式的對話互動,其超強功能讓許多人大開眼界。ChatGPT堪稱是一個得力的虛擬助手,能夠協助用戶撰寫論文創建App編寫程式碼建立個人履歷資料編寫Excel公式對書籍、文章或研究文獻進行摘要整理撰寫求職信,執行上述任務十分到位,完全不遜於真人表現;猶有甚者,還可比美劇作家,撰寫情節引人入勝的「星際迷航記」短片劇本,也能比照莎士比亞及哈利波特的風格語法改寫文本,另在極短時間編寫出WordPress的插件程式代碼,也毫無障礙。

正因ChatGPT騰空出世又強大驚人的各種功能,使得事後因理念不合而退出OpenAI投資行列的伊隆馬斯克評價為:「ChatGPT好到令人害怕,看來我們離危險強大的人工智能不遠了!」、「AI是人類文明未來最大的風險」、「AI比核彈頭還危險!」ChatGPT備受全球矚目,推出僅短短兩個月,在2023年1月已達全球有一億個活躍用戶的市場規模,是有史以來增長速度最快的應用程式。

運作原理

ChatGPT強大之處在於——能夠根據網際網路上絕大多數可存取的數位文本資料為基礎的資訊(以2021 年以前進行數據訓練時已存在的資訊為限),解析用戶所查詢的事項,並生成完整的答案內容提供給用戶;這與其採用的數據訓練架構有很大關係,與過往AI多使用監督型(Supervised)數據預先訓練模式相比,1 ChatGPT採用的是非監督型(Non-Supervised)數據訓練方式(AI pre-training),此種方式是在沒有特定輸出與每個輸入相關聯的數據上訓練模型的一個過程,這類模型經過訓練以學習輸入數據中的底層結構和模式,無需考慮任何特定的任務。

在語言建模的上下文中,使用無監督預先訓練來訓練模型,以理解自然語言的句法和語義,從而可以在對話的上下文中,生成連貫而有意義的文本,這使得ChatGPT具有浩繁無限的知識潛力,因為開發人員無需為特定輸入或輸出,他們僅需將越來越多的資訊轉儲到ChatGPT預先訓練機制中,為此一轉換器為基礎(Transformer-Base)的語言建模,使用近年來AI技術快速發展的大型語言模型(Large Language Models, LLMs),吸收巨量的文本——其中絕大多數內容來自於網際網路。

在此模型下,根據這些文本「學習」如何通過自然語言與人類進行互動,可以進行眾多模式的寫作,能與人詳細的交流對話,並得以根據不完整資訊從事推理。這好比人的神經網絡通過互連的節點層來處理資訊用以模擬人腦之方式,如把神經網絡想像成一個球隊,每個球員各自在其負責的特定角色下,及其他同具有特定角色的球員間相互來回傳球,所有球員共同努力以求得分的情形類似。

在預先訓練期間,轉換器被輸入例如一個句子這樣的數據,且被要求根據該項輸入進行預測,這種模型根據其預測與實際輸出的匹配合致程度會不斷地進行更新,轉換器透過此一過程學會理解序列中單詞之間的上下文和關係,而成為語言翻譯和文本生成等自然語言處理任務的強大工具,亦即研究開發人員得以針對特定任務或領域,不斷運用強化學習和人類反饋(例如提供以獎勵或懲罰的形式)對此模型進行微調,可用於更新參數並優化在未來執行類似任務的表現

圖/美聯社

卓越表現

OpenAI曾以GPT-4進行各種模擬考試測試,結果不僅全數通過,且表現優異。

例如,在全美統一律師資格考試(Uniform Bar Exam, UBE)分數百分位數達到前90%,在全美法學院入學考試(Law School Admission Test, LSAT)高達前88%,在全美研究生入學考試(Graduate Record Examinations, GRE)定量測試高達前80%、口語測試高達前99%,在美國大學先修課程(Advanced Placement, AP)考試各類科尚不低於前85%,在全美多數大學申請要求的學術能力評估測試(Scholastic Assessment Test, SAT)各科則均不低於前89%,絕對可以說是名列前茅,出類拔萃的考試能手。

用以訓練ChatGPT的數據集是來自網際網路的大量文本數據,量體非常龐大;而一開始OpenAI用的是GPT-3.5(Generative Pre-trAI ned Transformer 3)架構來進行訓練,從字面即可得知它是生成的、可以被預先訓練的,且能夠透過所擷取的一切數據,用轉換器架構來權衡文本輸入以理解上下文。

如此大量的數據也使得ChatGPT能夠用前所未有的規模,學習自然語言中單詞和短語之間的模式和關係,這也是它為何能夠如此有效地生成連貫且與上下文相關的回應,以饗用戶查詢的原因之一。如果用戶每月支付美金20元訂閱ChatGPT Plus,更可享OpenAI自今(2023)年3月推出、宣稱能處理比前一代更細微的指令,整體表現更流暢的最新版GPT-4模型。

與前一版本的三千個單詞相比,GPT-4可接受多達兩萬五千個單詞更長的文本輸入。對OpenAI挹資一百億美元的微軟(Microsoft)公司,早於今年2月初就開始在旗下Bing瀏覽器內建最新的GPT-4供公眾使用,這款名為BingAI的聊天機器人展示了令人讚嘆稱奇、前所未有的能力。也引發一連串有關生成式AI在迅速發展下所帶來的AI法律及倫理層面相關問題的巨幅議論。

圖/美聯社

ChatGPT有心智、情感、意識、思維力?

當前的生成式AI下的語言模型屬於觀察性的,亦即,經提供大量的各種知識文本和人類對話,訓練基於神經網絡的底層算法。因此,聊天機器人的現實模型能與人類對話互動,正確選擇單詞序列來回答人類提出的問題,並具有正確的語言結構。而提供給此模型的數據越多,它的答案就越精準、越有說服力。

生成式AI能夠模擬人與人之間的對話,要歸功於它在整個訓練過程中獲得的大量文本語料庫。這些文本中很多明顯包含了機器人學習(模仿)的情緒和感受,因此模擬表達感情的能力也被納入了它的語言模型。

也就是說,雖然生成式AI本身並沒有自己的感覺,也無自我意識,更不具個人主觀性,但它是一個非常複雜的語言模型,它模擬人類的情感,並在與人類互動的對話過程中表現出來。由於這種複雜的架構、技術和數據量的迅速進展,使得生成式AI這個大型神經網絡運行結果產生了讓人感覺接近人類的語言和創造力。然而,這些模型主要依賴於模式識別匹配——並非本於機智、坦率或主觀意圖。簡言之,容此套句谷歌發言人Gabriel的話:「有這麼多數據,AI不需要有感知力,就能感覺真實了!」

▍下篇:

生成式AI的善與惡(二):從ChatGPT談人工智慧的未來隱憂

圖/美聯社

吳維雅

吳維雅,前台灣高等法院法官,現美國華盛頓大學博士研究生。

AI 人工智慧 倫理 美國 時事觀察 法律評論 吳維雅

推薦文章

留言