必示科技聯(lián)合多家單位發(fā)布 OpsEval:運維大語言模型評測榜單
01 引言
大規(guī)模語言模型(LLMs)在NLP相關任務如翻譯、摘要和生成方面展現(xiàn)出了卓越的能力。由于大模型的記憶、生成和推理等高級能力,它在智能運維(AIOps)領域也具有巨大的應用潛力。然而,當前LLMs在AIOps特定任務的性能尚不明確,需要一個全面的基準來指導針對AIOps領域的LLMs的優(yōu)化。
為了解決這些問題,清華大學、中國科學院計算機網(wǎng)絡信息中心、南開大學、必示科技、中興通訊、中亦圖靈等多家單位聯(lián)合發(fā)布了OpsEval:面向大規(guī)模語言模型的多層次智能運維能力評價基準。此榜單發(fā)布于中國科技網(wǎng)(CSTNET)上,中國科技網(wǎng)是中國科學院領導下的學術性、非盈利的科研計算機網(wǎng)絡,是中國第一個全功能正式接入國際互聯(lián)網(wǎng)的網(wǎng)絡,主要面向全國科技界、政府和高新技術企業(yè)提供網(wǎng)絡服務,覆蓋30余個省、市、自治區(qū)、直轄市,擁有網(wǎng)絡用戶100余萬。中國科技網(wǎng)由中國科學院計算機網(wǎng)絡信息中心建設維護。中心成立于1995年3月,是中國互聯(lián)網(wǎng)誕生地。
OpsEval首次評估了LLMs在三個關鍵場景(有線網(wǎng)絡運營、5G通信運營和數(shù)據(jù)庫運營)的各種任務難度級別(知識召回、推理、應用)的熟練程度?;鶞蕼y試包括7200個問題,既有選擇題,也有問答題,提供英文和中文。我們非常歡迎其他垂直領域的單位提供更多評測題目,我們會統(tǒng)一評估,并定期更新到OpsEval網(wǎng)站上。
我們評估了十余種主流大模型,我們的發(fā)現(xiàn)揭示了傳統(tǒng)的BLEU指標不適合用于專業(yè)領域的知識型問答評估,而GPT-4得分可以作為人類評估指標的最佳替代品。最后,我們探討了不同模型量化方法對總體性能的影響。
02 相關工作
隨著傳統(tǒng)的自然語言處理(NLP)評價指標越來越無法滿足LLMs的評估需求,針對LLMs的評價指標越來越受到重視。它們可以分為兩類:通用能力指標和特定領域指標。
通用能力指標,如HELM、BIG-bench、C-Eval、AGIEval等等,用于評估LLMs在各類任務上的通用能力,例如是否包含常識、通用知識、推理能力等等,不會局限在某一特定領域上。而特定領域指標,包括金融領域的FinEval、醫(yī)療領域的CMB、HuoTuo-26M、MultiMedQA等等,被用于評價LLMs是否處理特定垂直領域的問題。
最近提出的NetOps,被用于評估LLMs在網(wǎng)絡領域下的能力,包含中英文選擇題、少量的填空和問答題。與之相比,我們的工作包括了傳統(tǒng)網(wǎng)絡運維、5G網(wǎng)絡通信、數(shù)據(jù)庫運維等多個方面,在AIOps領域涵蓋更加廣泛和深入的評價方式,在任務話題和任務難度上進行了更加細致的劃分,并且對常見LLMs在各類任務上的表現(xiàn)進行了詳細的分析。
03 OpsEval 評估基準
在對AIOps領域的大型語言模型進行評估時,我們將問題分為客觀和主觀兩類。客觀問題通常為多項選擇題,提供明確答案,但可能導致模型過度依賴模式識別而非真正理解。主觀題無預設選項,更能考察模型的理解力和知識庫。我們通過結(jié)合這兩類問題,旨在全面、平衡地評估模型的認知能力和理解力。
3.1 客觀題
數(shù)據(jù)來源:客觀問題主要來自于全球公認的AIOps領域的國際認證考試,我們從各種書籍、在線資源和合作單位中收集問題。這些問題主要以選擇題的形式出現(xiàn),包括單選和多選兩種形式。每個問題都配有問題提示、可能的答案選擇以及相關的解釋或分析。我們主要關注的領域包括有線網(wǎng)絡運營、5G通信運營和數(shù)據(jù)庫運營。我們還將繼續(xù)在未來完善和擴大評估領域。
數(shù)據(jù)處理:我們的原始數(shù)據(jù)集的處理包括五個階段:初步篩選、去重、內(nèi)容過濾、格式標準化和手動審查。這個細致的過程最終得到了一個包含大約7000個客觀題的精煉數(shù)據(jù)集。
任務分類:在復雜的運維領域,認識到任務和挑戰(zhàn)的多維性是至關重要的。為了全面評估AIOps領域的大型語言模型,我們設計了一個分類,涵蓋了專業(yè)人員在實際環(huán)境中面臨的各種場景。我們的八個不同的運維場景的制定受到了行業(yè)相關性、任務頻率和每個領域在AIOps中的重要性的影響。這些類別包括:
?通用領域知識
?故障分析和診斷
?網(wǎng)絡配置
?軟件部署
?性能優(yōu)化
?監(jiān)控告警
?自動化腳本
?混合型任務
3.2 主觀題
數(shù)據(jù)收集:OpsEval數(shù)據(jù)集中的主觀題來源于精心策劃的多種資源,以確保其全面性和相關性:
?從客觀問題生成:我們的一部分主觀題是從原始數(shù)據(jù)集中精心挑選的客觀問題中派生出來的。這些問題在被確定具有潛在的深度和廣度后,被轉(zhuǎn)化為主觀形式。
?從書籍中提?。簽榱嗽鰪娢覀償?shù)據(jù)集的多樣性和深度,我們還從涵蓋AIOps領域的權(quán)威書籍中獲取了主觀題。這確保了我們的數(shù)據(jù)集不僅廣泛,而且符合行業(yè)標準和當前的最佳實踐。
數(shù)據(jù)處理:
1.問題總結(jié):被選中轉(zhuǎn)化為主觀題的客觀問題經(jīng)過了一個總結(jié)過程。這涉及到提煉每個問題的主要內(nèi)容,并以沒有預定義選項的開放題形式呈現(xiàn)。
2.引入?yún)⒖假Y料:對于在GPT-4的幫助下生成的問題,我們在提示中提供了參考文本,以指導生成過程并確保準確性。
3.數(shù)據(jù)結(jié)構(gòu)化:每個主觀題都被精心結(jié)構(gòu)化,包括原始問題、答案的關鍵點、詳細答案、領域和相關任務。這種結(jié)構(gòu)化的方法便于評估和分析。
3.3 評估指標
客觀題:使用準確性作為指標。由于LLMs可能輸出除選項之外的更多內(nèi)容,因此LLMs的答案是通過基于正則表達式的選項提取器從其原始回復中提取的。
主觀題:用兩種類型的指標,一種基于詞重疊,另一種基于語義相似性。對于第一種類型,我們使用Rouge和Bleu,這在NLP任務中被廣泛使用,尤其是在翻譯任務中。對于第二種類型,我們使用GPT-4和人類來獲取LLMs輸出的分數(shù),這在OpsEval中分別被稱為GPT4-Score和Expert Evaluation。
?GPT4-Score是由GPT4生成的分數(shù),使用精心設計的提示。尤其是在LLMs的參數(shù)變大后,越來越多地使用LLMs進行評分。我們將問題的評分提示、真實關鍵點、真實詳細答案和待評分的LLM答案組合起來。分數(shù)在1到10之間,越高越好。
?專家評估(Expert Evaluation)是為OpsEval專門設計的指標,根據(jù)三個與網(wǎng)絡操作需求高度相關的標準對LLMs的輸出進行手動評分??紤]的三個標準如下:
1.流暢性(Fluency):評估模型輸出的語言流暢性,符合主觀問題的回答要求,以及段落重復或無關文本的存在與否。
2.準確性(Accuracy):評估模型輸出的精確性和正確性,包括是否充分覆蓋了真實答案的關鍵點。
3.證據(jù)量(Evidence):檢查模型的輸出是否包含足夠的論證和證據(jù)支持,以確保答案的可信度和可靠性。
04 OpsEval 實驗設計
4.1 考察模型
我們選取了比較流行的能夠處理中英文輸入的不同參數(shù)大小、不同機構(gòu)發(fā)布的模型,并將它們在OpsEval上進行評估。所評估的模型及具體細節(jié)見下表。
此外,為了了解不同量化參數(shù)對模型性能的影響,我們評估了LLaMA-2-70B的兩個量化版本。具體而言,我們使用LLaMA-2-70B的帶有3位和4位量化參數(shù)的GPTQ模型。
4.2 實驗設置
4.2.1 客觀題
為了全面了解不同語言模型在OpsEval上的表現(xiàn),我們使用盡可能多的評估方式來進行評估。在評測中,我們分別使用zero-shot方式和few-shot方式(我們的實現(xiàn)中為3-shot)進行評估。對于zero-shot方式,我們希望從普通用戶的角度評估語言模型的能力,因為用戶在普通使用中不會提供任何示例。對于few-shot方式,我們旨在從開發(fā)人員的角度評估語言模型的潛力,這通常比zero-shot設置獲得更好的性能。
對于每個評估方式,我們使用4種設置來評估語言模型,即原始問答(Naive)、自我一致性(SC)、思維鏈(CoT),結(jié)合思維鏈的自我一致性(CoT+SC)。由于我們有英文和中文問題,我們分別為兩種語言設計對應的原始問答提示與思維鏈提示。
?原始問答(Naive):希望語言模型在沒有任何其他解釋的情況下生成答案。由于我們有每個問題的場景,因此我們將問題的場景集成到提示中,如下圖所示。
?自我一致性(SC):將相同的問題多次詢問語言模型,提取模型生成答案中出現(xiàn)次數(shù)最高的答案。在實現(xiàn)中,我們將SC的查詢次數(shù)設置為 5 。
?思維鏈(CoT):通過讓模型生成中間推理步驟使語言模型獲得復雜的推理能力。在CoT設置的zero-shot評估中,我們進行兩步問答。第一步,在問題后添加“讓我們一步一步地思考?!?,語言模型會輸出其推理思路。第二步,我們將問題的提示和生成的推理思路組合起來,輸入語言模型,并獲得最終答案。在CoT設置的few-shot評估中,我們對問題的每個選項進行推理分析,并制作三個具有CoT推理過程答案的Q-A示例,將這些示例與問題一起輸入給語言模型。CoT的提示構(gòu)造示例如下圖所示。
?結(jié)合思維鏈的自我一致性(CoT+SC):將CoT和SC結(jié)合在一起,以提高CoT的表現(xiàn)。與 SC一樣,在實現(xiàn)中,我們將SC的查詢次數(shù)設置為 5 。
4.2.1 主觀題
我們將每個問題的場景和任務以及問題本身結(jié)合起來作為語言模型的輸入。在主觀題中,我們希望模擬普通用戶對語言模型的日常使用,將問題輸入給語言模型,然后生成答案。因此,我們只使用Naive設置中對語言模型進行zero-shot評估。
05 OpsEval 評估效果
5.1 總體表現(xiàn)
所有模型在英文網(wǎng)絡操作測試集的八種設置結(jié)果顯示在下表中(更多評測結(jié)果請參閱論文原文和網(wǎng)站)。我們統(tǒng)計平均準確率,并從總體性能中得出了幾個發(fā)現(xiàn)。
首先,GPT-4始終優(yōu)于所有其他模型,超越了所有其他模型的最佳結(jié)果。
在網(wǎng)絡操作問題集中,當使用CoT+SC提示方法時,LLaMA-2-13b-chat和Baichuan-13b-chat在英文和中文測試數(shù)據(jù)集中接近ChatGPT的性能。
在5G通信問題集中,LlaMA-2-13B和Qwen-7B-Chat在英文和中文測試數(shù)據(jù)集中超過了ChatGPT的性能。
在Oracle數(shù)據(jù)庫問題集中,LlaMA-2-13B和Qwen-7B-Chat仍然領先于GPT-4和ChatGPT以外的模型。
較小的模型,如LLaMA-2-7b-chat和Internlm-chat-7b,在客觀的問答任務中表現(xiàn)出有競爭力的性能,接近具有13B參數(shù)的模型的能力,這歸功于它們的微調(diào)過程和訓練數(shù)據(jù)的質(zhì)量。
5.2 不同設置間效果對比
從測試結(jié)果中,有幾點有趣的觀察:
1.對于大多數(shù)模型,從Naive到SC、CoT、CoT+SC,評估性能穩(wěn)步提高,其中CoT帶來的提高最為顯著。
2.SC提示只能帶來相對較小的改進,因為模型的回應在重復中傾向于保持一致,符合運營場景中需要可靠性和一致性的期望結(jié)果。
3.在某些情況下,更高級的提示方法(如CoT)令人驚訝地導致了更差的結(jié)果。我們分析了這種現(xiàn)象背后的可能原因:
a.一些模型可能在需要逐步思考時對CoT提示提供的指導反應不佳,導致次優(yōu)的輸出。下圖是CoT失敗的一個例子:被測試的模型無法理解逐步思考的概念。
b.few-shot評估可能會導致一些模型認為任務涉及生成問題而不是回答問題,從而導致模型回答效果變差。
5.3 不同場景與任務效果
為了研究模型在不同運維場景(通用領域知識、監(jiān)控告警、軟件部署、網(wǎng)絡配置、故障分析與診斷、自動化腳本、性能優(yōu)化、混合型任務)以及不同任務(知識回憶、分析思考和實際應用)中的表現(xiàn),我們根據(jù)前文提到的結(jié)構(gòu)化評分分類,總結(jié)了不同參數(shù)大小模型組的結(jié)果。
通過按參數(shù)大小對模型進行分組,我們發(fā)現(xiàn),盡管13B模型在最佳情況下的準確率比參數(shù)少于7B的模型高,但不同的13B模型的性能差異極大,導致其下限甚至低于7B。另一方面,7B模型在組內(nèi)的性能范圍更穩(wěn)定。
5.4 不同量化等級效果對比
上圖展示了LLaMA-2-70B在中英文客觀問題上的不同量化參數(shù)的準確性。我們使用Naive設置下進行了zero-shot和few-shot評估。顯然,在推理過程中使用量化會降低LLM的性能。
4位量化模型與原模型相比,準確率比較接近。具體來說,在英文客觀題上,與LLaMA-2-70B相比,4位量化模型在zero-shot評估中的準確性降低了3.50%,在few-shot評估中降低了0.27%。在中文客觀題上,與LLaMA-2-70B相比,4位量化模型在zero-shot評估中的準確性降低了3.67%,在few-shot評估中降低了5.18%。
另一方面,3位量化模型的性能下降較大。平均來說,3位量化模型的準確性相比原始LLaMA-2-70B降低了12.46%,相比4位量化模型降低了9.30%??梢姡?位量化后,原始模型中的信息丟失太多。
5.5 主觀題表現(xiàn)
下表展示了50個主觀英文問題的評估結(jié)果,這些問題涵蓋了四類指標:Rouge、Bleu、GPT4-Score和專家評估,按照GPT4-Score結(jié)果排序。
我們觀察到,基于Rouge和Bleu得分的排名與GPT4-Score和專家評估的排名并不一致。實際回答性能較差的模型可能會生成關鍵詞,從而得到較高的Rouge和Bleu得分。相反,由于與標準答案的措辭差異,回答性能好的模型可能會得到較低的Rouge/Bleu得分。
關于GPT4-Score評估,排名與基于人類評分的排名非常接近。在專家評估的三個指標中,GPT4-Score排名與準確性指標最為接近,這表明GPT4在事實性上最為可靠,因為它有龐大的知識庫。生成內(nèi)容的格式和長度也對GPT4的評分有很大影響,這由GPT4-Score和流暢性之間的高正相關性所證明。另一方面,關于證據(jù)量指標的排名有更多的錯排,這表明GPT4的評分需要充分考慮論據(jù)和證據(jù)的作用,特別是在答案模糊的情況下。
06 總結(jié)與展望
本文介紹了OpsEval,一個為大規(guī)模語言模型(LLMs)設計的綜合性任務導向的智能運維領域基準測試。OpsEval的獨特之處在于,它在考慮了不同的能力水平(包括知識召回、推理和應用)的前提下,評估了LLMs在三個關鍵場景(有線網(wǎng)絡運營、5G通信運營和數(shù)據(jù)庫運營)中的熟練程度。這一綜合性基準測試包括7200道選擇題和問答題,分別以英文和中文呈現(xiàn)。
通過量化和定性的結(jié)果支持,我們詳細闡釋了各種LLMs技術(如零樣本學習、少樣本學習和思維鏈)對模型性能的影響。值得注意的是,與廣泛使用的Bleu和Rouge相比,GPT4分數(shù)顯現(xiàn)出更可靠的度量標準,這表明它有潛力取代大規(guī)模定性評估中的自動度量標準。
OpsEval框架的靈活性為未來的探索提供了機會。這一基準測試的可適應性使其能夠無縫集成更多細粒度的任務,為繼續(xù)研究和優(yōu)化針對智能運維領域的LLMs提供了基礎。
評論