FPGA 是實(shí)現(xiàn)綠色搜索技術(shù)的關(guān)鍵
無論為數(shù)以百萬計(jì)的用戶搜索請(qǐng)求提供服務(wù)還是處理超大量的信息,都需要數(shù)量龐大的計(jì)算資源,進(jìn)而消耗大量能源。事實(shí)上,用于計(jì)算與冷卻的能耗費(fèi)用是數(shù)據(jù)中心運(yùn)營的最大成本 [1]。隨著數(shù)據(jù)中心的數(shù)量和規(guī)模不斷增長,如果其能耗保持當(dāng)前水平的話,那么預(yù)計(jì)數(shù)據(jù)中心的二氧化碳排放量到 2020 年將超過航空公司 [2]。因而亟需開發(fā)能夠處理巨量數(shù)據(jù)的低能耗解決方案。數(shù)據(jù)中心的環(huán)?;l(fā)展是互利共贏的,服務(wù)供應(yīng)商不僅能夠顯著降低運(yùn)營成本,同時(shí)還能最大限度減少對(duì)環(huán)境的影響。
本文引用地址:http://cafeforensic.com/article/191536.htmFPGA 在加速 Web 搜索及類似信息檢索等常見數(shù)據(jù)中心工作任務(wù)方面擁有巨大的潛力,因?yàn)樗邆涔逃械牟⑿刑幚砼c低功耗優(yōu)勢(shì)。充分認(rèn)識(shí)到這一潛力的奧地利公司 Matrixware 購買了 FPGA 平臺(tái),但缺乏自身實(shí)施復(fù)雜信息檢索應(yīng)用的技術(shù),因而公司聘請(qǐng)了我們聯(lián)合格拉斯哥大學(xué) (University of Glasgow) 計(jì)算機(jī)系組建的團(tuán)隊(duì)開發(fā) FPGA 加速型專利搜索解決方案的概念驗(yàn)證方案。該團(tuán)隊(duì)成員包括三名設(shè)計(jì)人員和兼職助理研究員 Stelios Papanastasious,他們?cè)谛畔z索、FPGA 以及系統(tǒng)開發(fā)領(lǐng)域積累了豐富的專業(yè)知識(shí),形成了一個(gè)開發(fā)原型應(yīng)用所不可或缺的技能嫻熟的組合。經(jīng)討論,大家一致同意采用 FPGA 加速型后端進(jìn)行實(shí)時(shí)專利過濾應(yīng)用的開發(fā)。
項(xiàng)目資源在人力和時(shí)間方面受到很大制約。因此,采用 HDL 實(shí)施過濾算法不可行,因而我們決定采用瑞典公司 Mitrionics 開發(fā)的高級(jí)編程解決方案。
原型應(yīng)用在去年 11 月于奧地利維也納舉行的信息檢索設(shè)施研討會(huì) (Information Retrieval Facility Symposium) 上引起了專利研究人員的極大興趣。處理數(shù)以百萬份的專利通常需要幾分鐘,但若采用 FPGA 加速型后端,幾秒鐘就能反饋結(jié)果。
我們?cè)?2009 年 7 月舉行的 ACM SIGIR 國際信息檢索研究暨開發(fā)大會(huì) (ACM SIGIR International Conference on Information Retrieval Research and Development) 上發(fā)布了結(jié)果,介紹了相關(guān)的性能提升情況 [3],并在 FPL 2009 國際現(xiàn)場(chǎng)可編程邏輯大會(huì)上對(duì)架構(gòu)設(shè)計(jì)進(jìn)行了詳細(xì)闡述 [4]。
文檔過濾的輸入與輸出
通常情況下,信息過濾任務(wù)是指檢查傳送進(jìn)來的文檔是否與一系列既定的需求信息或配置文件相匹配 [5]。這種任務(wù)可在多種情況下出于多種原因而進(jìn)行,例如,檢測(cè)傳送進(jìn)入的電子郵件是不是垃圾郵件,比較專利申請(qǐng)是否與現(xiàn)有專利發(fā)生重疊,監(jiān)控是否存在恐怖活動(dòng)通信,監(jiān)測(cè)并跟蹤新聞報(bào)道,等等。面對(duì)大量涌入的文檔,處理工作必須實(shí)時(shí)完成,從而確保時(shí)效性成為重中之重。鑒于此,我們的目標(biāo)就是采用 FPGA 來實(shí)施完成計(jì)算強(qiáng)度最大的過濾應(yīng)用,從而在節(jié)約時(shí)間和降低能耗的情況下提高文檔過濾的效率。
在本文中,我們將采用 Lavrenko 和 Croft 提出的相關(guān)性模型 [6]。這一理念適用于信息過濾任務(wù),可通過生成概率語言模型確定傳入文檔是否與主題配置文件存在差異。如果文檔得分超過用戶定義的閾值,那么就視為與主題配置文件相關(guān)。
在 FPGA 上實(shí)施的算法表達(dá)如下:文檔可以建模為一個(gè)“詞袋”,即由(t,f )對(duì)組成的 D 集,其中 f=n(t,d),t 表示 t 這個(gè)詞在文檔 d 中出現(xiàn)的次數(shù)。配置文件 M 為一組對(duì) p=(t,w),這里的 w 加權(quán)為:
給定文檔對(duì)于給定配置文件的得分計(jì)算為:
這里,T 是指在 D 和 M 中都出現(xiàn)的詞。該函數(shù)是大多數(shù)過濾算法的代表性內(nèi)核算法,不同算法的主要區(qū)別在于配置文件中詞的加權(quán)。
應(yīng)用架構(gòu)
文檔過濾應(yīng)用采用客戶端—服務(wù)器架構(gòu),其構(gòu)成形式為將基于 GUI 的客戶端通過 TCP/IP 連接到通信服務(wù)器,該服務(wù)器可作為不同后端服務(wù)器和客戶端之間的代理(參見圖 1)。在典型的使用案例中,用戶首先向查詢服務(wù)器發(fā)出請(qǐng)求,常規(guī)搜索系統(tǒng)會(huì)返回選中排序列表。用戶隨后通過從該表中選擇相關(guān)文檔創(chuàng)建配置文件。接下來,配置文件服務(wù)器使用所有合并文檔的完整文本構(gòu)建配置文件(即詞和加權(quán)列表)。配置文件服務(wù)器將該配置文件與完整的文檔集合進(jìn)行匹配,并向客戶端返回分?jǐn)?shù)流。
模塊化的客戶端—服務(wù)器架構(gòu)有助于建立系統(tǒng)基準(zhǔn),因?yàn)槲覀兛梢栽谥鳈C(jī) CPU 上方便地添加配置文件服務(wù)器的 C++ 參考實(shí)施。如圖 1 所示,應(yīng)用由 FPGA 加速的部分受限于計(jì)算強(qiáng)度最大的任務(wù),也就是文檔與配置文件的匹配。主機(jī)系統(tǒng)則負(fù)責(zé)處理所有其他的任務(wù)(參見圖 2)。
圖 1 —— 系統(tǒng)架構(gòu)以可作為客戶端與后端服務(wù)器之間代理的通信服務(wù)器為中心。
評(píng)論