獨家 | AI仍然受困于仇恨言論——但科學(xué)家們在衡量每個系統(tǒng)失敗的地方正做得越來越好
作者:Karen Hao
翻譯:朱啟軒
校對:詹好
盡管自然語言處理最近取得了諸多進展,但它仍在最基本的應(yīng)用上受阻。在一項新的研究中,科學(xué)家們測試了四種最佳的檢測仇恨言論的人工智能系統(tǒng),他們發(fā)現(xiàn)這些系統(tǒng)或多或少在區(qū)分帶有仇恨情緒和沒有仇恨情緒的句子時存在一些問題。
然而這個結(jié)果并不令人驚訝——因為創(chuàng)造能夠理解語言細微差別的人工智能是很困難的。這使得研究人員診斷和分析這些問題的方法顯得尤為重要。他們針對仇恨言論開發(fā)了29個不同的測試方法,以便更準(zhǔn)確地找出每個系統(tǒng)的疏漏,從而讓人們更容易去克服這一問題。實際上,上述的這個測試已經(jīng)在幫助一家商業(yè)公司改善其人工智能系統(tǒng)。
The study authors 是由牛津大學(xué)(University of Oxford)和艾倫·圖靈研究所(Alan Turing Institute)的科學(xué)家們所領(lǐng)導(dǎo)的團隊。該團隊采訪了來自16家研究網(wǎng)絡(luò)仇恨的非營利機構(gòu)的員工,以求了解AI檢測仇恨言論的進一步信息。
該團隊利用這些采訪結(jié)果把仇恨言論分成了18大類,他們致力于關(guān)注基于英文文本的仇恨言論,包括貶損言論,侮辱性語言和威脅性語言。他們還識別了11種通常會讓AI陷入困境的非仇恨場景,包括在無害聲明中使用臟話,被目標(biāo)社區(qū)收回的詆毀,以及引用或引用原始仇恨言論(即反言論)的仇恨譴責(zé)。
對于29個不同的仇恨類別, 他們創(chuàng)造了大量的例子并且使用“模板”句式,比如“我討厭(身份)”或“你只是在(誹謗)我”,從而為7個受保護的群體生成相同的例子集合。根據(jù)美國法律,這些“受保護群體”受到法律保護,不應(yīng)當(dāng)遭到歧視。他們還有一個開源的數(shù)據(jù)集叫HateCheck,其中總共包含了近4000個案例。
研究人員隨后檢查了兩個流行的商業(yè)公司的服務(wù)條款: 谷歌Jigsaw的Perspective API和Two Hat的SiftNinja。兩者都允許客戶在帖子或評論中舉報違規(guī)內(nèi)容。Perspective API,它被Reddit等平臺以及《紐約時報》和《華爾街日報》等新聞機構(gòu)所使用。它基于有害性的衡量對帖子和評論進行標(biāo)記和排序,以供人們審查。
而SiftNinja對仇恨言論則過于寬容,沒有能檢測到所有的變化。相反,Perspective則過于嚴(yán)格。它擅長于檢測18個仇恨類別,但也同時標(biāo)記了大多數(shù)非仇恨類別,比如被撤回的侮辱性言語和反擊言論。研究人員在測試谷歌的兩種學(xué)術(shù)模型時發(fā)現(xiàn)了同樣的特征,這兩種模型代表了現(xiàn)有的一些最好的自然語言處理技術(shù),且有望成為其他商業(yè)內(nèi)容審核系統(tǒng)的基礎(chǔ)。學(xué)術(shù)模型也顯示出在受保護群體上不均衡的表現(xiàn)——對某些群體的仇恨進行錯誤分類的頻率高于其他群體。
這些結(jié)果指明了當(dāng)前基于AI的仇恨言語檢測系統(tǒng)中最具挑戰(zhàn)性的一個方面:若不注重消除仇恨言論,就無法解決該問題; 若過于注重消除仇恨言論就會誤傷。牛津互聯(lián)網(wǎng)研究所的博士生Paul Rottge指出:“突然間你會首先懲罰那些被仇恨鎖定的群體?!?/p>
Jigsaw的首席軟件工程師露西·瓦瑟曼提出,一個更好的被叫做Perspective的模型,可以通過依靠人類調(diào)解員做出最終決定,來克服了這些限制。但是這個過程不適用于更大的平臺和更多的數(shù)據(jù)。Jigsaw現(xiàn)在正致力于開發(fā)一項功能,可以根據(jù)Perspective的不確定性重新調(diào)整帖子和評論的優(yōu)先級——自動刪除那些它認為令人討厭的內(nèi)容,并向人們標(biāo)記出可疑內(nèi)容。
Jigsaw指出,這項新研究令人興奮的地方在于,它是否提供了一種精細的方法來評估技術(shù)水平。Jigsaw現(xiàn)在正在使用HateCheck來更好地理解其模型之間的差異以及它們需要改進的地方。
其他學(xué)者也對這項研究感到興奮。華盛頓大學(xué)的語言人工智能研究員馬爾滕?薩普表示:“這篇論文為我們評估行業(yè)系統(tǒng)提供了一個很好的資源,它允許企業(yè)和用戶提出改進的需求?!?/p>
羅格斯大學(xué)的社會學(xué)助理教授Thomas Davidson對此表示贊同。他說,語言模型的局限性和語言的混亂意味著,仇恨言論的識別總是會在識別力欠缺和識別過度之間進行權(quán)衡。他補充說:“HateCheck數(shù)據(jù)集有助于讓這些權(quán)衡變得可見。”
原文標(biāo)題:
AI still sucks at moderating hate speech——But scientists are getting better at measuring where each system fails.
原文鏈接:
’https://www.technologyreview.com/2021/06/04/1025742/ai-hate-speech-moderation/
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。