色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 揭秘:RCFile高效存儲(chǔ)結(jié)構(gòu)

揭秘:RCFile高效存儲(chǔ)結(jié)構(gòu)

作者：時(shí)間：2011-05-09 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

本文介紹了Facebook公司數(shù)據(jù)分析系統(tǒng)中的RCFile存儲(chǔ)結(jié)構(gòu)，該結(jié)構(gòu)集行存儲(chǔ)和列存儲(chǔ)的優(yōu)點(diǎn)于一身，在MapReduce環(huán)境下的大規(guī)模數(shù)據(jù)分析中扮演重要角色。

本文引用地址：http://cafeforensic.com/article/150786.htm

　　Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)會(huì)議上介紹了數(shù)據(jù)倉庫Hive。Hive存儲(chǔ)海量數(shù)據(jù)在Hadoop系統(tǒng)中，提供了一套類數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)和處理機(jī)制。它采用類SQL語言對數(shù)據(jù)進(jìn)行自動(dòng)化管理和處理，經(jīng)過語句解析和轉(zhuǎn)換，最終生成基于Hadoop的MapReduce任務(wù)，通過執(zhí)行這些任務(wù)完成數(shù)據(jù)處理。圖1顯示了Hive數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)。

　　

　　圖1 Hive數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)

　　基于MapReduce的數(shù)據(jù)倉庫在超大規(guī)模數(shù)據(jù)分析中扮演了重要角色，對于典型的Web服務(wù)供應(yīng)商，這些分析有助于它們快速理解動(dòng)態(tài)的用戶行為及變化的用戶需求。數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)是影響數(shù)據(jù)倉庫性能的關(guān)鍵因素之一。Hadoop系統(tǒng)中常用的文件存儲(chǔ)格式有支持文本的TextFile和支持二進(jìn)制的SequenceFile等，它們都屬于行存儲(chǔ)方式。Facebook工程師發(fā)表的RCFile: A Fast and Spaceefficient Data Placement Structure in MapReducebased Warehouse Systems一文，介紹了一種高效的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)——RCFile(Record Columnar File)，并將其應(yīng)用于Facebook的數(shù)據(jù)倉庫Hive中。與傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)相比，RCFile更有效地滿足了基于MapReduce的數(shù)據(jù)倉庫的四個(gè)關(guān)鍵需求，即Fast data loading、Fast query processing、Highly efficient storage space utilization和Strong adaptivity to highly dynamic workload patterns。

　　數(shù)據(jù)倉庫的需求

　　基于Facebook系統(tǒng)特征和用戶數(shù)據(jù)的分析，在MapReduce計(jì)算環(huán)境下，數(shù)據(jù)倉庫對于數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)有四個(gè)關(guān)鍵需求。

　　Fast data loading

　　對于Facebook的產(chǎn)品數(shù)據(jù)倉庫而言，快速加載數(shù)據(jù)(寫數(shù)據(jù))是非常關(guān)鍵的。每天大約有超過20TB的數(shù)據(jù)上傳到Facebook的數(shù)據(jù)倉庫，由于數(shù)據(jù)加載期間網(wǎng)絡(luò)和磁盤流量會(huì)干擾正常的查詢執(zhí)行，因此縮短數(shù)據(jù)加載時(shí)間是非常必要的。

　　Fast query processing

　　為了滿足實(shí)時(shí)性的網(wǎng)站請求和支持高并發(fā)用戶提交查詢的大量讀負(fù)載，查詢響應(yīng)時(shí)間是非常關(guān)鍵的，這要求底層存儲(chǔ)結(jié)構(gòu)能夠隨著查詢數(shù)量的增加而保持高速的查詢處理。

　　Highly efficient storage space utilization

　　高速增長的用戶活動(dòng)總是需要可擴(kuò)展的存儲(chǔ)容量和計(jì)算能力，有限的磁盤空間需要合理管理海量數(shù)據(jù)的存儲(chǔ)。實(shí)際上，該問題的解決方案就是最大化磁盤空間利用率。

　　Strong adaptivity to highly dynamic workload patterns

　　同一份數(shù)據(jù)集會(huì)供給不同應(yīng)用的用戶，通過各種方式來分析。某些數(shù)據(jù)分析是例行過程，按照某種固定模式周期性執(zhí)行;而另一些則是從中間平臺(tái)發(fā)起的查詢。大多數(shù)負(fù)載不遵循任何規(guī)則模式，這需要底層系統(tǒng)在存儲(chǔ)空間有限的前提下，對數(shù)據(jù)處理中不可預(yù)知的動(dòng)態(tài)數(shù)據(jù)具備高度的適應(yīng)性，而不是專注于某種特殊的負(fù)載模式。

　　MapReduce存儲(chǔ)策略

　　要想設(shè)計(jì)并實(shí)現(xiàn)一種基于MapReduce數(shù)據(jù)倉庫的高效數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)，關(guān)鍵挑戰(zhàn)是在MapReduce計(jì)算環(huán)境中滿足上述四個(gè)需求。在傳統(tǒng)數(shù)據(jù)庫系統(tǒng)中，三種數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)被廣泛研究，分別是行存儲(chǔ)結(jié)構(gòu)、列存儲(chǔ)結(jié)構(gòu)和PAX混合存儲(chǔ)結(jié)構(gòu)。上面這三種結(jié)構(gòu)都有其自身特點(diǎn)，不過簡單移植這些數(shù)據(jù)庫導(dǎo)向的存儲(chǔ)結(jié)構(gòu)到基于MapReduce的數(shù)據(jù)倉庫系統(tǒng)并不能很好地滿足所有需求。

　　行存儲(chǔ)

　　如圖2所示，基于Hadoop系統(tǒng)行存儲(chǔ)結(jié)構(gòu)的優(yōu)點(diǎn)在于快速數(shù)據(jù)加載和動(dòng)態(tài)負(fù)載的高適應(yīng)能力，這是因?yàn)樾写鎯?chǔ)保證了相同記錄的所有域都在同一個(gè)集群節(jié)點(diǎn)，即同一個(gè)HDFS塊。不過，行存儲(chǔ)的缺點(diǎn)也是顯而易見的，例如它不能支持快速查詢處理，因?yàn)楫?dāng)查詢僅僅針對多列表中的少數(shù)幾列時(shí)，它不能跳過不必要的列讀取;此外，由于混合著不同數(shù)據(jù)值的列，行存儲(chǔ)不易獲得一個(gè)極高的壓縮比，即空間利用率不易大幅提高。盡管通過熵編碼和利用列相關(guān)性能夠獲得一個(gè)較好的壓縮比，但是復(fù)雜數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)會(huì)導(dǎo)致解壓開銷增大。

　　

　　圖2 HDFS塊內(nèi)行存儲(chǔ)的例子

上一頁 1 2 3 下一頁

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 結(jié)構(gòu) 存儲(chǔ) 高效 :RCFile 揭秘

評論

相關(guān)推薦

智憶巴西啟動(dòng)江波龍新產(chǎn)品線，并發(fā)布8.59億新投資計(jì)劃

網(wǎng)絡(luò)與存儲(chǔ) 江波龍存儲(chǔ) 元器件 | 2024-07-03

自制大功率高效逆變模塊

設(shè)計(jì)方案自制大功率高效逆變模塊 | 2009-07-06

[推薦]51 flash文件系統(tǒng)DIY(5)___FAT揭秘

seasoblue | 2002-10-22

[推薦]51 flash文件系統(tǒng)DIY(4)___FAT揭秘

seasoblue | 2002-10-22

DSP總體介紹

資源下載 DSP 特點(diǎn) 結(jié)構(gòu) 開發(fā)環(huán)境芯片選擇 | 2007-02-16

MIC79050-4.2BS的內(nèi)部結(jié)構(gòu)框圖

設(shè)計(jì)方案 MIC79050-4.2BS 內(nèi)部結(jié)構(gòu) 框圖 | 2009-07-06

主板維修手冊

資源下載主板結(jié)構(gòu) 故障維修手冊 | 2007-02-16

家電應(yīng)用中高效節(jié)能的雙電機(jī)控制

視頻電機(jī) 節(jié)能高效控制 Microchip | 2013-11-28

[推薦]51 flash文件系統(tǒng)DIY(6)___FAT揭秘

seasoblue | 2002-10-22

存儲(chǔ)大廠鎧俠離IPO又進(jìn)一步！

網(wǎng)絡(luò)與存儲(chǔ) 存儲(chǔ) 鎧俠 IPO | 2024-07-05

AI算力升級(jí)，存儲(chǔ)將扮演什么角色？

網(wǎng)絡(luò)與存儲(chǔ) AI算力存儲(chǔ) 鎧俠 Xinnor | 2024-06-28

存儲(chǔ)大廠：CXL內(nèi)存將于下半年爆發(fā)？

網(wǎng)絡(luò)與存儲(chǔ) 存儲(chǔ) CXL 內(nèi)存 | 2024-07-22

群聯(lián)展出“全球首款”無 DRAM PCIe 5.0 SSD 主控 E31T：速度超 10GB/s、臺(tái)積電 7nm 工藝

網(wǎng)絡(luò)與存儲(chǔ) SSD 存儲(chǔ) Computex 2024 臺(tái)北國際電腦展 | 2024-06-17

嵌入式大會(huì)提交論文大揭秘

jackwang | 2002-08-07

高效應(yīng)急燈電源電路

設(shè)計(jì)方案高效應(yīng)急燈電源電路 | 2009-07-06

漲知識(shí)！氮化鎵（GaN）器件結(jié)構(gòu)與制造工藝

電源與新能源氮化鎵 GaN 結(jié)構(gòu) 制造工藝 | 2024-06-17

用高效開關(guān)控制器LT1148-5制作的2A降壓直流變換電源

設(shè)計(jì)方案高效開關(guān) 控制器 LT1148-5 制作降壓直流變換 | 2009-07-06

可控硅元件的結(jié)構(gòu)

資源下載可控硅元件 SRC 結(jié)構(gòu) | 2007-02-16

永磁電機(jī)弱磁條件下的控制方案

視頻電機(jī) 節(jié)能高效控制 | 2013-12-04

2025年存儲(chǔ)產(chǎn)業(yè)進(jìn)入上升循環(huán)？

網(wǎng)絡(luò)與存儲(chǔ) 存儲(chǔ) TrendForce | 2024-07-12

中國高效節(jié)能電機(jī)全產(chǎn)業(yè)鏈透視與市場熱點(diǎn)分析

視頻電機(jī) 節(jié)能高效控制 | 2013-11-28

西部數(shù)據(jù)實(shí)用貼心好禮滿足父親全面存儲(chǔ)需求

網(wǎng)絡(luò)與存儲(chǔ) 西部數(shù)據(jù) 存儲(chǔ) | 2024-06-12

用MAX632組成的高效升壓穩(wěn)壓電源

設(shè)計(jì)方案 MAX632 組成高效升壓穩(wěn)壓電源 | 2009-07-06

Spansion變頻解決方案

視頻電機(jī) 節(jié)能高效控制 Spansion | 2013-11-28

可擴(kuò)展并行計(jì)算技術(shù)、結(jié)構(gòu)與編程

資源下載黃鎧可擴(kuò)展并行計(jì)算結(jié)構(gòu) 編程 | 2007-03-23

HBM新戰(zhàn)局，半導(dǎo)體存儲(chǔ)廠商們準(zhǔn)備好了嗎？

網(wǎng)絡(luò)與存儲(chǔ) HBM 半導(dǎo)體存儲(chǔ) | 2024-07-16

電機(jī)控制技術(shù)發(fā)展趨勢及飛思卡爾解決方案

視頻電機(jī) 節(jié)能高效控制 Freescale | 2013-11-28

PLD/FPGA 結(jié)構(gòu)與原理初步

hpnet | 2002-07-10

可控硅知識(shí)的問與答

資源下載可控硅晶閘管結(jié)構(gòu) 特性 | 2007-02-16

新紫光集團(tuán)報(bào)到，存儲(chǔ)+先進(jìn)工藝

網(wǎng)絡(luò)與存儲(chǔ) 新紫光存儲(chǔ) 先進(jìn)工藝 | 2024-07-12

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

<menu id="iiqwi"></menu>

<source id="iiqwi"></source>