聯(lián)發(fā)科推繁中大型語(yǔ)言模型
聯(lián)發(fā)科集團(tuán)轄下的前瞻技術(shù)研究單位聯(lián)發(fā)創(chuàng)新基地、中央研究院詞庫(kù)小組和國(guó)家教育研究院等三方所組成的研究團(tuán)隊(duì),23日宣布推出全球第一款繁體中文語(yǔ)言模型到開(kāi)源網(wǎng)站提供測(cè)試,后續(xù)將有機(jī)會(huì)持續(xù)推動(dòng)具備繁體中文的人工智能(AI)市場(chǎng)發(fā)展。
聯(lián)發(fā)科表示,本次公開(kāi)釋出以開(kāi)源語(yǔ)言模型BLOOM開(kāi)發(fā)的繁體中文大型語(yǔ)言模型(Large language model),比目前開(kāi)源可用的最大繁體中文模型大1,000倍,所使用的訓(xùn)練數(shù)據(jù)也多1,000倍。該模型已公開(kāi)讓外界下載,可應(yīng)用于問(wèn)答系統(tǒng)、文字編修、廣告文案生成、華語(yǔ)教學(xué)、客服系統(tǒng)等。
聯(lián)發(fā)創(chuàng)新基地負(fù)責(zé)人許大山表示,大型語(yǔ)言模型是近年來(lái)人工智能技術(shù)進(jìn)步的亮點(diǎn),更是未來(lái)進(jìn)步不可或缺的基石。此次結(jié)合中研院及國(guó)教院,成為臺(tái)灣極少數(shù)能訓(xùn)練大型語(yǔ)言模型的團(tuán)隊(duì),以透明、開(kāi)放和包容的方式,善用技術(shù)、人才及資源,既發(fā)展自主訓(xùn)練大型人工智能模型的能力,也讓繁體中文的大型語(yǔ)言模型研究及應(yīng)用更為普及。
開(kāi)放原始碼釋出的大型語(yǔ)言模型,目前多數(shù)仍以英文為主要優(yōu)化的對(duì)象,繁體中文的語(yǔ)言模型相對(duì)不足。有鑒于開(kāi)放原始碼繁體中文大型語(yǔ)言模型的重要性與迫切性,在2022年5月,聯(lián)發(fā)創(chuàng)新基地、中央研究院和國(guó)家教育研究院展開(kāi)合作計(jì)劃,使用大型語(yǔ)言模型BLOOM的繁體中文模型再訓(xùn)練與優(yōu)化。
目前開(kāi)放系列中第一個(gè)有量級(jí)跳躍意義的繁體中文語(yǔ)言模型,聯(lián)發(fā)創(chuàng)新基地也暫備一個(gè)手機(jī)網(wǎng)頁(yè)接口,供研究者試用。
為建立該項(xiàng)語(yǔ)言模型,國(guó)家教育研究院提供了大量高質(zhì)量的繁體中文語(yǔ)料,作為主要的訓(xùn)練材料。聯(lián)發(fā)創(chuàng)新基地則建置了訓(xùn)練的硬件環(huán)境,制訂各種符合國(guó)際標(biāo)準(zhǔn)的繁體中文評(píng)量指標(biāo),收集更近期的語(yǔ)料,并對(duì)模型進(jìn)行能更有效讀懂使用者的指示(prompt)的特別訓(xùn)練。
評(píng)論