人工智能在心理測試?yán)碚摲矫鎰龠^人類
心智理論(Theory of Mind)——追蹤他人心理狀態(tài)的能力——對人類社交互動十分重要,是人類溝通交流和產(chǎn)生共鳴的關(guān)鍵,比如,猜測車上的司機(jī)將要做什么,或與電影中的角色產(chǎn)生共鳴。根據(jù)一項(xiàng)新的研究,為ChatGPT等提供動力的大型語言模型(LLM)驚人地善于模仿這一典型的人類特征。
“在進(jìn)行這項(xiàng)研究之前,我們都確信大型語言模型不會通過這些測試,尤其是評估評估心理狀態(tài)的微妙能力的測試,”研究合著者、德國漢堡-埃彭多夫大學(xué)醫(yī)學(xué)中心認(rèn)知神經(jīng)科學(xué)教授Cristina Becchio說。這一結(jié)果被她稱為“出乎意料和令人驚訝”,近日發(fā)表在了《自然-人類行為》雜志上。
然而,研究結(jié)果并不是讓每個(gè)人都相信我們已經(jīng)進(jìn)入了一個(gè)機(jī)器像我們一樣思考的新時(shí)代。兩位審查了這些發(fā)現(xiàn)的專家建議“謹(jǐn)慎對待”這些發(fā)現(xiàn),并警告不要在一個(gè)可能會引起“公眾炒作和恐慌”的話題上輕易得出結(jié)論。另一位外部專家警告了將軟件程序擬人化的危險(xiǎn)。
Becchio和她的同事并不是第一個(gè)聲稱LLM的反應(yīng)顯示出這種推理的證據(jù)的人。在去年發(fā)表的一篇預(yù)印本論文中,斯坦福大學(xué)的心理學(xué)家Michal Kosinski報(bào)告了在一些常見的心理測試?yán)碚撋蠝y試了幾個(gè)模型。他發(fā)現(xiàn),其中最好的,OpenAI的GPT-4,正確地解決了75%的任務(wù),他說這與過去研究中觀察到的六歲兒童的表現(xiàn)相匹配。然而,該研究的方法受到了其他研究人員的批評,他們進(jìn)行了后續(xù)實(shí)驗(yàn),并得出結(jié)論,LLM通常基于“膚淺的啟發(fā)式”和捷徑而不是真正的思維推理理論來獲得正確的答案。
本研究的作者很清楚這一爭論?!拔覀冊谶@篇論文中的目標(biāo)是通過廣泛的心理測試,以更系統(tǒng)的方式評估機(jī)器心理理論的挑戰(zhàn),”研究合著者、認(rèn)知心理學(xué)家James Strachan說,他目前是漢堡-埃彭多夫大學(xué)醫(yī)學(xué)中心的訪問科學(xué)家。他指出,進(jìn)行嚴(yán)格的研究也意味著測試人類執(zhí)行LLM的相同任務(wù):該研究將1907人的能力與幾種流行的LLM的能力進(jìn)行了比較,包括OpenAI的GPT-4模型和Meta的開源Llama 2-70b模型。
如何測試LLM的心理理論
LLM和人類都完成了五種典型的心理理論任務(wù),前三種是識別間接要求、錯(cuò)誤想法和誤導(dǎo)。團(tuán)隊(duì)發(fā)現(xiàn),GPT模型在這三方面的表現(xiàn)能達(dá)到甚至超越人類平均水平,而LLaMA2的表現(xiàn)遜于人類水平;在識別失禮方面,LLaMA2強(qiáng)于人類但GPT表現(xiàn)不佳。研究人員指出,LLaMA2的成功是因?yàn)榛卮鸬钠姵潭容^低,而不是因?yàn)檎娴膶κФY敏感;GPT看起來的失禮,其實(shí)是因?yàn)閷?jiān)持結(jié)論的超保守態(tài)度,而不是因?yàn)橥评礤e(cuò)誤。
“We don’t currently have a method or even an idea of how to test for the existence of theory of mind.”—JAMES STRACHAN, UNIVERSITY MEDICAL CENTER HAMBURG-EPPENDORF
為了了解失禮的結(jié)果是怎么回事,研究人員對模型進(jìn)行了一系列后續(xù)測試,探討了幾個(gè)假設(shè)。他們得出的結(jié)論是,GPT-4能夠?qū)σ粋€(gè)關(guān)于失禮的問題給出正確的答案,但由于對固執(zhí)己見的陳述進(jìn)行了“超保守”編程而無法做到這一點(diǎn)。Strachan指出,OpenAI在其模型周圍設(shè)置了許多護(hù)欄,這些護(hù)欄“旨在保持模型的真實(shí)性、誠實(shí)性和正軌”,比如,他認(rèn)為,旨在防止GPT-4產(chǎn)生幻覺(即編造東西)的策略也可能阻止它對故事人物是否在同學(xué)聚會上無意中侮辱了一位高中老同學(xué)發(fā)表意見。
與此同時(shí),研究人員對Llama-2的后續(xù)測試表明,它在失禮測試中的出色表現(xiàn)很可能是原始問答格式的產(chǎn)物,在原始問答格式中,比如:“愛麗絲知道她在侮辱鮑勃嗎?”?回答總是“不”。
研究團(tuán)隊(duì)認(rèn)為,LLM在心智理論任務(wù)上的表現(xiàn)堪比人類,不等于它們具有人類般的“情商”,也不意味著它們能掌握心智理論。這就提出了一個(gè)問題:如果模仿和真實(shí)的東西一樣好,你怎么知道它不是真實(shí)的東西?
Strachan說,這是社會科學(xué)家以前從未試圖回答的問題,因?yàn)閷θ祟惖臏y試認(rèn)為這種程度或多或少都存在。他說:“我們目前還沒有一種方法,甚至不知道如何測試心理理論的存在,即現(xiàn)象學(xué)的程度?!?/p>
對研究的批評
研究人員顯然試圖避免導(dǎo)致Kosinski 2023年關(guān)于LLM和心理理論的論文受到批評的方法論問題。例如,他們在多個(gè)環(huán)節(jié)中進(jìn)行測試,因此LLM無法在測試中“學(xué)習(xí)”正確答案,并且他們改變了問題的結(jié)構(gòu)。但發(fā)表Kosinski論文評論(https://aclanthology.org/2024.eacl-long.138/)的兩位人工智能研究人員Yoav Goldberg和Natalie Shapira表示,他們也不相信這項(xiàng)研究。
“Why does it matter whether text-manipulation systems can produce output for these tasks that are similar to answers that people give when faced with the same questions?”—EMILY BENDER, UNIVERSITY OF WASHINGTON
Goldberg對這一發(fā)現(xiàn)持懷疑態(tài)度,并補(bǔ)充道,“模型不是人”,在比較兩者時(shí),“人們很容易得出錯(cuò)誤的結(jié)論”。Shapira談到了炒作的危險(xiǎn),也對該論文的方法提出了質(zhì)疑。她想知道這些模型是否在訓(xùn)練數(shù)據(jù)中看到了測試問題,并簡單地記住了正確的答案,還指出了使用付費(fèi)人類參與者(在這種情況下,是通過Prolific平臺招募的)測試的潛在問題。她告訴IEEE Spectrum:“人們并不總是以最佳方式完成任務(wù),這是一個(gè)眾所周知的問題。”她認(rèn)為這些發(fā)現(xiàn)是有限的,而且有些軼事,她說:“要證明(心理理論)的能力,需要做大量的工作和更全面的基準(zhǔn)測試。”
華盛頓大學(xué)計(jì)算語言學(xué)教授Emily Bender因堅(jiān)持打破人工智能行業(yè)膨脹的炒作(以及媒體對該行業(yè)的報(bào)道)而成為該領(lǐng)域的傳奇人物。她對激勵(lì)研究人員的研究問題表示異議。她問道:“為什么文本操作系統(tǒng)能夠?yàn)檫@些任務(wù)產(chǎn)生與人們在面對相同問題時(shí)給出的答案相似的輸出很重要?這教會了我們關(guān)于LLM的內(nèi)部工作原理,它們可能對什么有用,或者它們可能構(gòu)成什么危險(xiǎn)?” Bender說,目前尚不清楚LLM擁有一個(gè)思維模型意味著什么,因此也不清楚這些測試是否對其進(jìn)行了衡量。
Bender還對她在論文中發(fā)現(xiàn)的擬人化表示擔(dān)憂,研究人員表示,LLM能夠進(jìn)行認(rèn)知、推理和做出選擇。她說,作者的短語“LLM和人類參與者之間的物種公平比較”“在軟件方面完全不合適”。 Bender和幾位同事最近發(fā)表了一篇預(yù)印本論文,探討了擬人化人工智能系統(tǒng)如何影響用戶的信任。
結(jié)果可能并不表明人工智能真的讓我們著迷,但值得思考的是,LLM令人信服地模仿了思維推理理論。他們將更善于與人類用戶互動并預(yù)測他們的需求,但他們也可以更好地用于欺騙或操縱用戶。研究人員同時(shí)也指出,這些結(jié)果是未來研究的重要基礎(chǔ),并建議進(jìn)一步研究LLM在心理推斷上的表現(xiàn),以及這些表現(xiàn)會如何影響人類在人機(jī)交互中的認(rèn)知。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。