色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<fieldset id="ketbi"><var id="ketbi"></var></fieldset>

"); //-->

博客專欄

EEPW首頁 > 博客 > 人工智能在心理測試?yán)碚摲矫鎰龠^人類

人工智能在心理測試?yán)碚摲矫鎰龠^人類

發(fā)布人：12345zhi 時(shí)間：2024-08-30 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

心智理論（Theory of Mind）——追蹤他人心理狀態(tài)的能力——對人類社交互動十分重要，是人類溝通交流和產(chǎn)生共鳴的關(guān)鍵，比如，猜測車上的司機(jī)將要做什么，或與電影中的角色產(chǎn)生共鳴。根據(jù)一項(xiàng)新的研究，為ChatGPT等提供動力的大型語言模型（LLM）驚人地善于模仿這一典型的人類特征。

“在進(jìn)行這項(xiàng)研究之前，我們都確信大型語言模型不會通過這些測試，尤其是評估評估心理狀態(tài)的微妙能力的測試，”研究合著者、德國漢堡-埃彭多夫大學(xué)醫(yī)學(xué)中心認(rèn)知神經(jīng)科學(xué)教授Cristina Becchio說。這一結(jié)果被她稱為“出乎意料和令人驚訝”，近日發(fā)表在了《自然-人類行為》雜志上。

然而，研究結(jié)果并不是讓每個(gè)人都相信我們已經(jīng)進(jìn)入了一個(gè)機(jī)器像我們一樣思考的新時(shí)代。兩位審查了這些發(fā)現(xiàn)的專家建議“謹(jǐn)慎對待”這些發(fā)現(xiàn)，并警告不要在一個(gè)可能會引起“公眾炒作和恐慌”的話題上輕易得出結(jié)論。另一位外部專家警告了將軟件程序擬人化的危險(xiǎn)。

Becchio和她的同事并不是第一個(gè)聲稱LLM的反應(yīng)顯示出這種推理的證據(jù)的人。在去年發(fā)表的一篇預(yù)印本論文中，斯坦福大學(xué)的心理學(xué)家Michal Kosinski報(bào)告了在一些常見的心理測試?yán)碚撋蠝y試了幾個(gè)模型。他發(fā)現(xiàn)，其中最好的，OpenAI的GPT-4，正確地解決了75%的任務(wù)，他說這與過去研究中觀察到的六歲兒童的表現(xiàn)相匹配。然而，該研究的方法受到了其他研究人員的批評，他們進(jìn)行了后續(xù)實(shí)驗(yàn)，并得出結(jié)論，LLM通常基于“膚淺的啟發(fā)式”和捷徑而不是真正的思維推理理論來獲得正確的答案。

本研究的作者很清楚這一爭論?！拔覀冊谶@篇論文中的目標(biāo)是通過廣泛的心理測試，以更系統(tǒng)的方式評估機(jī)器心理理論的挑戰(zhàn)，”研究合著者、認(rèn)知心理學(xué)家James Strachan說，他目前是漢堡-埃彭多夫大學(xué)醫(yī)學(xué)中心的訪問科學(xué)家。他指出，進(jìn)行嚴(yán)格的研究也意味著測試人類執(zhí)行LLM的相同任務(wù)：該研究將1907人的能力與幾種流行的LLM的能力進(jìn)行了比較，包括OpenAI的GPT-4模型和Meta的開源Llama 2-70b模型。

如何測試LLM的心理理論

LLM和人類都完成了五種典型的心理理論任務(wù)，前三種是識別間接要求、錯(cuò)誤想法和誤導(dǎo)。團(tuán)隊(duì)發(fā)現(xiàn)，GPT模型在這三方面的表現(xiàn)能達(dá)到甚至超越人類平均水平，而LLaMA2的表現(xiàn)遜于人類水平；在識別失禮方面，LLaMA2強(qiáng)于人類但GPT表現(xiàn)不佳。研究人員指出，LLaMA2的成功是因?yàn)榛卮鸬钠姵潭容^低，而不是因?yàn)檎娴膶κФY敏感；GPT看起來的失禮，其實(shí)是因?yàn)閷?jiān)持結(jié)論的超保守態(tài)度，而不是因?yàn)橥评礤e(cuò)誤。

“We don’t currently have a method or even an idea of how to test for the existence of theory of mind.”—JAMES STRACHAN, UNIVERSITY MEDICAL CENTER HAMBURG-EPPENDORF

為了了解失禮的結(jié)果是怎么回事，研究人員對模型進(jìn)行了一系列后續(xù)測試，探討了幾個(gè)假設(shè)。他們得出的結(jié)論是，GPT-4能夠?qū)σ粋€(gè)關(guān)于失禮的問題給出正確的答案，但由于對固執(zhí)己見的陳述進(jìn)行了“超保守”編程而無法做到這一點(diǎn)。Strachan指出，OpenAI在其模型周圍設(shè)置了許多護(hù)欄，這些護(hù)欄“旨在保持模型的真實(shí)性、誠實(shí)性和正軌”，比如，他認(rèn)為，旨在防止GPT-4產(chǎn)生幻覺（即編造東西）的策略也可能阻止它對故事人物是否在同學(xué)聚會上無意中侮辱了一位高中老同學(xué)發(fā)表意見。

與此同時(shí)，研究人員對Llama-2的后續(xù)測試表明，它在失禮測試中的出色表現(xiàn)很可能是原始問答格式的產(chǎn)物，在原始問答格式中，比如：“愛麗絲知道她在侮辱鮑勃嗎？”？回答總是“不”。

研究團(tuán)隊(duì)認(rèn)為，LLM在心智理論任務(wù)上的表現(xiàn)堪比人類，不等于它們具有人類般的“情商”，也不意味著它們能掌握心智理論。這就提出了一個(gè)問題：如果模仿和真實(shí)的東西一樣好，你怎么知道它不是真實(shí)的東西？

Strachan說，這是社會科學(xué)家以前從未試圖回答的問題，因?yàn)閷θ祟惖臏y試認(rèn)為這種程度或多或少都存在。他說：“我們目前還沒有一種方法，甚至不知道如何測試心理理論的存在，即現(xiàn)象學(xué)的程度?！?/p>

對研究的批評

研究人員顯然試圖避免導(dǎo)致Kosinski 2023年關(guān)于LLM和心理理論的論文受到批評的方法論問題。例如，他們在多個(gè)環(huán)節(jié)中進(jìn)行測試，因此LLM無法在測試中“學(xué)習(xí)”正確答案，并且他們改變了問題的結(jié)構(gòu)。但發(fā)表Kosinski論文評論（https://aclanthology.org/2024.eacl-long.138/）的兩位人工智能研究人員Yoav Goldberg和Natalie Shapira表示，他們也不相信這項(xiàng)研究。

“Why does it matter whether text-manipulation systems can produce output for these tasks that are similar to answers that people give when faced with the same questions?”—EMILY BENDER, UNIVERSITY OF WASHINGTON

Goldberg對這一發(fā)現(xiàn)持懷疑態(tài)度，并補(bǔ)充道，“模型不是人”，在比較兩者時(shí)，“人們很容易得出錯(cuò)誤的結(jié)論”。Shapira談到了炒作的危險(xiǎn)，也對該論文的方法提出了質(zhì)疑。她想知道這些模型是否在訓(xùn)練數(shù)據(jù)中看到了測試問題，并簡單地記住了正確的答案，還指出了使用付費(fèi)人類參與者（在這種情況下，是通過Prolific平臺招募的）測試的潛在問題。她告訴IEEE Spectrum：“人們并不總是以最佳方式完成任務(wù)，這是一個(gè)眾所周知的問題。”她認(rèn)為這些發(fā)現(xiàn)是有限的，而且有些軼事，她說：“要證明（心理理論）的能力，需要做大量的工作和更全面的基準(zhǔn)測試。”

華盛頓大學(xué)計(jì)算語言學(xué)教授Emily Bender因堅(jiān)持打破人工智能行業(yè)膨脹的炒作（以及媒體對該行業(yè)的報(bào)道）而成為該領(lǐng)域的傳奇人物。她對激勵(lì)研究人員的研究問題表示異議。她問道：“為什么文本操作系統(tǒng)能夠?yàn)檫@些任務(wù)產(chǎn)生與人們在面對相同問題時(shí)給出的答案相似的輸出很重要？這教會了我們關(guān)于LLM的內(nèi)部工作原理，它們可能對什么有用，或者它們可能構(gòu)成什么危險(xiǎn)？” Bender說，目前尚不清楚LLM擁有一個(gè)思維模型意味著什么，因此也不清楚這些測試是否對其進(jìn)行了衡量。

Bender還對她在論文中發(fā)現(xiàn)的擬人化表示擔(dān)憂，研究人員表示，LLM能夠進(jìn)行認(rèn)知、推理和做出選擇。她說，作者的短語“LLM和人類參與者之間的物種公平比較”“在軟件方面完全不合適”。 Bender和幾位同事最近發(fā)表了一篇預(yù)印本論文，探討了擬人化人工智能系統(tǒng)如何影響用戶的信任。

結(jié)果可能并不表明人工智能真的讓我們著迷，但值得思考的是，LLM令人信服地模仿了思維推理理論。他們將更善于與人類用戶互動并預(yù)測他們的需求，但他們也可以更好地用于欺騙或操縱用戶。研究人員同時(shí)也指出，這些結(jié)果是未來研究的重要基礎(chǔ)，并建議進(jìn)一步研究LLM在心理推斷上的表現(xiàn)，以及這些表現(xiàn)會如何影響人類在人機(jī)交互中的認(rèn)知。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： LLM 心智理論

相關(guān)推薦

用工具彌補(bǔ)AI短板，讓AI答案更精準(zhǔn)

智能計(jì)算語言模型 LLM AI | 2024-07-18

熟悉LLM的重要機(jī)制

智能計(jì)算 202406 LLM | 2024-06-11

Nvidia 征服了最新的 AI 測試

智能計(jì)算 GPU 神經(jīng)網(wǎng)絡(luò) LLM MLPerf 基準(zhǔn)測試英偉達(dá) | 2024-06-26

語言大模型的進(jìn)化軌跡

智能計(jì)算人工智能 LLM 大語言模型 | 2024-02-29

AI神奇魅力的源點(diǎn)：相似度

智能計(jì)算 202403 LLM 相似度 CLIP Transformer | 2024-03-13

微軟亞研院新作：讓大模型一口氣調(diào)用數(shù)百萬個(gè) API

智能計(jì)算 AI LLM | 2024-03-28

中國電信發(fā)布全球首個(gè)單體稠密萬億參數(shù)語義模型 Tele-FLM-1T

智能計(jì)算 LLM AI 大語言模型 | 2024-06-19

上一篇：谷歌承諾提供更好的搜索體驗(yàn)，但是它建議網(wǎng)友往披薩上抹膠水？

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專區(qū)