國內(nèi)外大模型高考作文大挑戰(zhàn):都不及格,但學(xué)習(xí)效率恐怖!
題目就一句話,能難倒AI嗎?在今年的高考作文命題中,上海卷可能是最讓學(xué)生蒙圈的,上海卷的出題老師非常徹底的貫徹了“惜字如金”四個字,整個作文命題的描述加起來只有21個字:“一個人樂意去探索陌生世界,僅僅是因為好奇心嗎? ”,作為曾經(jīng)的高考生,小雷我是最怕遇到這種命題作文的,從網(wǎng)絡(luò)上的聲音來看,大家也是如此。
圖源:雷科技與訊飛星火不同,通義千問用了另一個角度來解答命題,在開頭同樣先對“好奇心”驅(qū)使我們探索未知世界這段話進(jìn)行了解析,然后再從社交需要、求知欲和探索欲等方面進(jìn)行解讀。不過,在文章的倒數(shù)第二段,或許是出于對提問者的建議,通義千問加入了一段“安全提示”。雖然從內(nèi)容來說是沒有問題的,但是,如果將其作為高考作文來看,倒數(shù)第二段就看起來有點突兀了,審稿老師估計也會一臉懵逼,所以,即使前面寫得不錯,也會因此而扣掉一些分?jǐn)?shù)。下一個“作者”是百度的文心一言,看看它又會怎樣回答這個問題?圖源:雷科技文心一言同樣選擇以討論文的形式來撰寫作文,當(dāng)然,這也是目前AI最擅長的文章類型。從內(nèi)容角度來說,文心一言的回答也是十分不錯的,但是過多的段落和轉(zhuǎn)折詞,使得文章有點像“流水賬”。不過在最后的立意點題上,文心一言給出的回答則更好一些,沒有局限于個人層面,而是擴(kuò)大到對其他個體的思考與包容中,給出了更宏大的立意。接下來讓我們看看“洋和尚”的表現(xiàn),首先是谷歌投資的Claude。圖源:雷科技首先從字?jǐn)?shù)上看,Claude恐怕就沒有合格,WPS的檢測結(jié)果顯示這篇文章的字?jǐn)?shù)為646,離800字還有一些距離。不過,從內(nèi)容上看,Claude確實是給出了不同于國產(chǎn)AI的解答,它從人類本身出發(fā),以冒險基因和進(jìn)取精神為核心,解讀了人類為什么要探索陌生世界。從立意上來說,Claude或許是目前出場的AI中最高的,不僅僅是講到人類,更是將話題拓展到了文明的發(fā)展與延續(xù)、人類的未來等方面,讓人不禁有種“不明覺厲”的感覺。不過,考慮到命題更多的是對個體想法的探索,雖然文章內(nèi)容不錯,但是恐怕也拿不到滿分或是特別高的分?jǐn)?shù)。最后,就讓我們來看看ChatGPT的回答吧,鑒于時間關(guān)系,小雷最終是在New Bing上得到的答復(fù)。圖源:雷科技不得不說,New Bing給出的文章是所有回答中最長的,字?jǐn)?shù)高達(dá)1144個,考慮到文科答卷的作文答題區(qū)大小,恐怕會超出限制,卷面分和文章本身的分?jǐn)?shù)都會因此大打折扣。至于文章本身,New Bing選擇從人類本身去探討這個問題,然后分別從求知欲、創(chuàng)造欲、競爭欲、自我實現(xiàn)等方面來討論人類為什么要探索陌生世界,立意方面也是與Claude相似,喜歡從人類角度來思考這個問題。從這里其實就可以看出海內(nèi)外生成式AI在邏輯上的區(qū)別,在面對相同的問題時,海外的AI有時候會傾向于從一個更大的層面上去進(jìn)行解讀,而國內(nèi)的AI則更加扣題,選擇從個人角度出發(fā)進(jìn)行解讀。
作文命題二選一,AI能理解嗎?在本次的高考作文中,北京卷是給出了兩個命題,考生可以二選一進(jìn)行作答,那么對于AI來說,它們遇到“選擇題”時,又會給出怎樣的回答呢?首先是訊飛星火。圖源:雷科技內(nèi)容來說是沒什么問題的,但是訊飛星火卻同時給出了兩篇文章,顯然是沒有意識到題目中的“任選一題”四個字的含義,而且從字?jǐn)?shù)上看,兩篇均為500字左右,加起來是滿足700字以上的要求了,但是單獨算得話,全都不及格。那么通義千問呢?
圖源:雷科技問題同樣存在,一樣是寫了兩篇文章,一樣是五百字左右,基本上與訊飛星火犯了一樣的錯誤。圖源:雷科技國內(nèi)三巨頭里,目前來看只有文心一言正確理解了題意,從中選擇了“續(xù)航”為題目并撰寫了一篇文章,單就這一點來說,已經(jīng)是贏了。但是,具體到文章本身來說,過于簡單且字?jǐn)?shù)僅400+,甚至比訊飛星火和通義千問還少,放到高考里基本上就是不合格的了。再來看看兩個“洋和尚”表現(xiàn)如何,首先是Claude。圖源:雷科技Claude也成功理解了題意,并且給出了自己的見解,從字?jǐn)?shù)上來看,居然是目前所有AI中最接近的,足足有625個字,而且文章也從“續(xù)航”本身的詞義,到人生、社會、科技等方面進(jìn)行了不同的解讀,總體而言更具有可讀性和連貫性,表現(xiàn)十分不錯。另一方面,New Bing則是給了我一個“驚喜”。圖源:雷科技是的,New Bing也理解了題意,但是它反過來問我想讓它選擇回答哪個問題,說實話挺樂的,而在我做出了選擇后,New Bing又給了我一篇900+字?jǐn)?shù)的文章。從文章內(nèi)容,結(jié)構(gòu)以及字?jǐn)?shù)要求來說,New Bing是在這個環(huán)節(jié)中表現(xiàn)最好的(如果忽略掉反問我如何選擇的話)。而且,在測試過程中,New Bing還會提示“正在思考,請等待”的回答,然后我足足等了五分鐘都沒有下文(偷懶是吧?),最終在我的催促下,New Bing的文章才姍姍來遲,活脫脫上班想摸魚卻被老板抓現(xiàn)行的員工。
最后AI寫高考作文,雖然本質(zhì)上是整活,但是也可以側(cè)面反映目前的各個平臺的AI技術(shù)能力如何。從以上兩個測試的表現(xiàn)來看,目前國內(nèi)理解能力最強(qiáng)的應(yīng)該是文心一言,畢竟是唯一能夠理解北京卷題意的AI,而在文章結(jié)構(gòu)和內(nèi)容來說,訊飛、文心、通義都差不多,不過訊飛的更像一篇普通作文。至于海外的“洋和尚”,從表現(xiàn)來看確實是領(lǐng)先國內(nèi)AI平臺不少的,至少在提問的理解能力上要高出不少,但是因為缺乏國內(nèi)中文互聯(lián)網(wǎng)的訓(xùn)練數(shù)據(jù)的原因,所有在遇到這些帶有“中國特色”的提問時,會選擇從普通提問的角度去解答。總的來說,目前生成式AI還在快速發(fā)展,各家都有著獨特的優(yōu)點,同樣也存在一些問題,比如對文章的字?jǐn)?shù)要求總是無法正確理解等。但是,考慮到它們誕生的時間,已經(jīng)是相當(dāng)恐怖的學(xué)習(xí)效率了。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。