微信自研NLP大規(guī)模語言模型WeLM：零/少樣本即可完成多種NLP任務(wù)

發(fā)布人：AI科技大本營時間：2022-10-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

近日，微信AI推出自研NLP大規(guī)模語言模型WeLM ，該模型是一個尺寸合理的中文模型，能夠在零樣本以及少樣本的情境下完成包多語言任務(wù)在內(nèi)的多種NLP任務(wù)。

同時，微信AI團(tuán)隊也提供了WeLM的體驗網(wǎng)頁和API接口，感興趣的用戶可前往https://welm.weixin.qq.com/docs/體驗和申請API接口，相關(guān)技術(shù)論文《WeLM: A Well-Read Pre-trained Language Model for Chinese》也已經(jīng)發(fā)布于論文預(yù)印本網(wǎng)站arXiv。

NLP大模型迎新選手，WeLM提供交互式網(wǎng)頁P(yáng)layGround和API接口

在近幾年自然語言處理（NLP）領(lǐng)域的發(fā)展浪潮中，OpenAI開發(fā)的自然語言處理模型GPT-3無疑風(fēng)頭無兩，發(fā)布之初便以1750億參數(shù)規(guī)模的預(yù)訓(xùn)練模型所表現(xiàn)出來的零樣本與小樣本學(xué)習(xí)能力刷新了人們的認(rèn)知，也引爆了AI大模型研究的熱潮。

對業(yè)界來說，預(yù)訓(xùn)練大模型降低了AI應(yīng)用的門檻，距離“AI把人類從重復(fù)性勞動中解放出來”的宏偉目標(biāo)越來越近，目前，基于GPT-3，全球開發(fā)者已經(jīng)探索出包括編程、回復(fù)郵件、UI設(shè)計、回答數(shù)學(xué)問題、法律語言轉(zhuǎn)化、總結(jié)中心思想、推理、文本處理等廣泛應(yīng)用場景，并且，各國研究者在多語言/多任務(wù)等角度的探索也正在譜寫大模型百家爭鳴的新篇章。

而在國內(nèi)以中文為核心的大規(guī)模語言模型領(lǐng)域，微信AI推出的百億級別大規(guī)模語言模型WeLM，便是大模型百家爭鳴中的新選手。

據(jù)介紹，WeLM是一個百億級別的中文模型，能夠在零樣本以及少樣本的情境下完成包括對話-采訪、閱讀理解、翻譯、改寫、續(xù)寫、多語言閱讀理解在內(nèi)的多種NLP任務(wù)，并具備記憶能力、自我糾正和檢查能力。并且，WeLM具有尺寸合理的優(yōu)勢，在14項中文NLP任務(wù)上，WeLM的整體表現(xiàn)超出了所有同大小的模型，甚至能夠匹配比它大25倍的模型。

以被普遍認(rèn)為是更困難的NLP任務(wù)的文本風(fēng)格轉(zhuǎn)換（改寫）為例，盡管用戶給出的5個例子和最后需要生成的例子并沒有重合的風(fēng)格轉(zhuǎn)換類型，但WeLM擁有出色的舉一反三能力，通過學(xué)習(xí)少量的文本轉(zhuǎn)換例子即可達(dá)到對任意類型的文本轉(zhuǎn)換。并且，WeLM在對話-采訪、閱讀理解、翻譯、續(xù)寫等多個中文文本生成任務(wù)中有著同樣優(yōu)異的表現(xiàn)。

除了具備強(qiáng)大的中文理解和生成能力，WeLM還擁有處理跨多語言（中英日）任務(wù)的能力。以“微信 AI 推出の WeLM 是一個 language model that いろいろなtaskをperformができる”這句混合中日英三國語言的文本為例，WeLM的翻譯相較Google翻譯更為精準(zhǔn)。

而且，在進(jìn)一步微調(diào)后，WeLM可以擁有更好的零樣本學(xué)習(xí)能力，可以根據(jù)場景擁有更好的表現(xiàn)。目前，WeLM已經(jīng)部署應(yīng)用于微信視頻號的部分場景中，未來在進(jìn)一步優(yōu)化后還將應(yīng)用于更多微信應(yīng)用場景。

同時，為進(jìn)一步推動WeLM成為真正能落地且實用的工具，微信AI團(tuán)隊還發(fā)布了一個供用戶體驗的交互式網(wǎng)頁P(yáng)layGround，并開放了用于訪問WeLM的API接口。

目前，用戶可通過https://welm.weixin.qq.com/docs/體驗WeLM的相關(guān)能力，并通過調(diào)整配置以實現(xiàn)更貼近的文本生成效果。對于想接入WeLM的開發(fā)者，也可通過https://welm.weixin.qq.com/docs/api/填寫問卷后獲得WeLM的API Token并調(diào)用相應(yīng)接口，將WeLM部署在自己的應(yīng)用上。

具有極強(qiáng)知識儲備，WeLM在14項中文NLP任務(wù)中表現(xiàn)亮眼

據(jù)介紹，在純Encoder(Bert)、純Decoder(GPT) 以及Encoder-Decode(T5) 結(jié)構(gòu)等主流NLP模型路徑的選擇上，WeLM和GPT3、Google PaLM一樣，選擇了自回歸模型的路線。同時，考慮到不同的用戶對于模型效果和推理延遲會有考量或者取舍（trade-off），微信AI的WeLM訓(xùn)練了1.3B、2.7B以及10B三個版本的模型，滿足不同用戶的調(diào)用需求。

同時，在訓(xùn)練數(shù)據(jù)上，微信AI團(tuán)隊希望構(gòu)建一個足夠豐富、足夠干凈、足夠公平的數(shù)據(jù)集，為此研究團(tuán)隊從Common Crawl下載了近兩年的中文網(wǎng)頁數(shù)據(jù)，和大量的書籍、新聞。為了增強(qiáng)專業(yè)能力，微信AI團(tuán)隊還在數(shù)據(jù)集補(bǔ)充了知識密集的論壇數(shù)據(jù)和一些學(xué)術(shù)論文，搜集完成后的全量數(shù)據(jù)10TB，其中包含了750G的英文數(shù)據(jù)，并保留了部分日韓文。

隨后，通過規(guī)則過濾和額外訓(xùn)練的二分類fasttext模型，以及對測評相關(guān)數(shù)據(jù)的去除，數(shù)據(jù)集最終處理完的數(shù)據(jù)量為262B tokens。為了更好的平衡各個數(shù)據(jù)源的比重，微信AI團(tuán)隊也對數(shù)據(jù)進(jìn)行不同比重的采樣，最終，整體數(shù)據(jù)集的Topic分布相比 Common Crawl更加平滑。

在與業(yè)界同級別的CPM、華為Pangu和百度Ernie3.0的對比測試中，WeLM表現(xiàn)出極強(qiáng)的知識儲備，在14項中文NLP任務(wù)上，WeLM 的整體表現(xiàn)超出了所有同大小的模型，甚至能夠匹配比它大25倍的模型。同時，在強(qiáng)大的中文理解和生成能力外，WeLM還有出色的多語言理解能力，用戶的輸入可以在中日英上絲滑切換。

目前，WeLM的相關(guān)技術(shù)論文《WeLM: A Well-Read Pre-trained Language Model for Chinese》已經(jīng)發(fā)布于論文預(yù)印本網(wǎng)站arXiv，感興趣的用戶可前往https://arxiv.org/abs/2209.10372查看更多技術(shù)細(xì)節(jié)。

在NLP領(lǐng)域，讓大模型成為真正能落地且實用的工具，是每一位NLP領(lǐng)域的研究者矢志不渝的方向。未來，微信AI也將針對WeLM進(jìn)行進(jìn)一步的微調(diào)優(yōu)化，進(jìn)一步提升其在新任務(wù)上的泛化效果，也歡迎更多開發(fā)者、用戶前來體驗WeLM并提出寶貴意見和建議，幫助該模型早日成為真正能落地且實用的工具，共同探索人工智能的發(fā)展之路。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

博客專欄

微信自研NLP大規(guī)模語言模型WeLM：零/少樣本即可完成多種NLP任務(wù)

相關(guān)推薦

技術(shù)專區(qū)