色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > 干貨 | 數(shù)字經(jīng)濟(jì)創(chuàng)新創(chuàng)業(yè)——DWF和Apache IOTDB研究項(xiàng)目介紹(1)

          干貨 | 數(shù)字經(jīng)濟(jì)創(chuàng)新創(chuàng)業(yè)——DWF和Apache IOTDB研究項(xiàng)目介紹(1)

          發(fā)布人:數(shù)據(jù)派THU 時間:2022-12-23 來源:工程師 發(fā)布文章

          下文整理自清華大學(xué)大數(shù)據(jù)能力提升項(xiàng)目能力提升模塊課程“Innovation & Entrepreneurship for Digital Economy”(數(shù)字經(jīng)濟(jì)創(chuàng)新創(chuàng)業(yè)課程)的精彩內(nèi)容。


          主講嘉賓:Kris Singh: CEO at SRII, Palo Alto, CaliforniaVisiting Professor of Tsinghua UniversityYingbo Liu, Associate Research Fellow of School of Software, Tsinghua UniversityPengcheng Zheng,Timecho


          今天我們將分享兩個來自清華軟件學(xué)院的非常重要的項(xiàng)目。這兩個項(xiàng)目都與數(shù)據(jù)有關(guān),如何管理大量數(shù)據(jù),如何創(chuàng)造數(shù)據(jù)價值。未來是數(shù)據(jù)經(jīng)濟(jì)時代,誰擁有最多的數(shù)據(jù),誰能夠挖掘數(shù)據(jù)價值,誰就是贏家。

          圖片 

          圖片


          數(shù)據(jù)量呈現(xiàn)指數(shù)級增長,因?yàn)閿?shù)字經(jīng)濟(jì),現(xiàn)在萬物皆可數(shù)字化。一切過程、系統(tǒng)和溝通都是通過數(shù)據(jù)來完成。上述圖表展示了數(shù)據(jù)體量的爆炸性增長趨勢。而大部分的數(shù)據(jù)是在近十年甚至是近五年之內(nèi)形成的,所以根據(jù)這種趨勢可以預(yù)測未來五年的情況。

          圖片 

          圖片


          大部分?jǐn)?shù)據(jù)來源從之前的計算機(jī)、到筆記本再到只能手機(jī),而現(xiàn)在則來自于傳感器IOT。傳感器產(chǎn)生的數(shù)據(jù)比其余來源加起來還要多得多。在未來幾年內(nèi)將會有總量超過650億傳感器,其產(chǎn)生的數(shù)據(jù)量可想而知。

          圖片 

          圖片


          那么數(shù)據(jù)量是如何爆炸式增長的呢?我們從最開始的ERP企業(yè)管理系統(tǒng),再到客戶管理系統(tǒng)再到網(wǎng)絡(luò),再到所有其他的活動項(xiàng)目,因?yàn)槲覀兯褂玫募夹g(shù)和工具,數(shù)據(jù)量越來越龐大。你可能聽說過大數(shù)據(jù)的5V,即體量(volume)、價值(value)、多樣性(variety)、速度(velocity)、veracity(準(zhǔn)確性)。數(shù)據(jù)體量龐大,數(shù)據(jù)的指數(shù)級增長已經(jīng)超過了可控的范圍,而體量大不足以讓我們理解數(shù)據(jù)的價值,如何創(chuàng)造價值,如何理解數(shù)據(jù)的含義。數(shù)據(jù)多樣性是指數(shù)據(jù)來源的多樣性,數(shù)據(jù)是多種類型的混合。速度則是指數(shù)據(jù)運(yùn)行有多快,可以用于理解我們的社會交往、智能手機(jī)和傳感器的運(yùn)行速度。最后一點(diǎn)是數(shù)據(jù)質(zhì)量的多樣性,數(shù)據(jù)真實(shí)程度以及有用性。數(shù)據(jù)符合二八定律,當(dāng)我們處理數(shù)據(jù)時,只有20%的工作是真正用于數(shù)據(jù)分析,所以在分析數(shù)據(jù)之前,要先理解數(shù)據(jù)的含義。

          圖片 

          圖片


          上述圖表展示了數(shù)據(jù)并非特定于某一個部分,某一種行業(yè)或某一個地區(qū),每一種行業(yè)都面臨著機(jī)遇和挑戰(zhàn)。數(shù)據(jù)不僅僅關(guān)乎醫(yī)療、電子商務(wù),它涉及經(jīng)濟(jì)和商業(yè)的方方面面。數(shù)據(jù)是基礎(chǔ)。你需要理解數(shù)據(jù)的價值,不同領(lǐng)域的數(shù)據(jù)有獨(dú)特的含義、價值、技術(shù)和工具,但都需要處理大量的數(shù)據(jù)。

          圖片 

          圖片


          數(shù)據(jù)分為不同類型,有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)化數(shù)據(jù)。大部分?jǐn)?shù)據(jù)都是結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)是我們經(jīng)典的數(shù)據(jù)庫,我們在IT系統(tǒng)當(dāng)中理解并使用。但現(xiàn)在爆炸的社交媒體、手機(jī)和傳感器里的數(shù)據(jù)大部分都是無結(jié)構(gòu)化的,這也是我們最大的機(jī)遇和挑戰(zhàn)。我們?nèi)绾卫斫饨Y(jié)構(gòu)化數(shù)據(jù)、無結(jié)構(gòu)化數(shù)據(jù)以及介于兩者之中的半結(jié)構(gòu)化數(shù)據(jù)呢?

          圖片 

          圖片


          數(shù)據(jù)分析不是新領(lǐng)域,它已經(jīng)存在了將近60年時間。數(shù)字化數(shù)據(jù)始自60年代計算機(jī)剛出現(xiàn)的時候,網(wǎng)絡(luò)也是在這一時期出現(xiàn)的。所以數(shù)據(jù)爆炸也是從這時開始的。首先是一個簡單的數(shù)據(jù)庫,然后是數(shù)據(jù)倉庫,你學(xué)習(xí)如何將數(shù)據(jù)恢復(fù)到某個系統(tǒng)中,然后是數(shù)據(jù)挖掘。開始應(yīng)用統(tǒng)計和其他一些技術(shù)和工具來幫助更好地理解。在過去的7年里,這個新的數(shù)據(jù)分析領(lǐng)域已經(jīng)發(fā)展起來,處理所有新類型的數(shù)據(jù)。這也是我邀請英博和鵬程來討論這一話題的原因。我們需要理解所有這些不同的數(shù)據(jù)源,最重要的是我們?nèi)绾畏治鰯?shù)據(jù)、如何創(chuàng)造數(shù)據(jù)的價值,僅僅擁有數(shù)據(jù)并不意味著什么,分析數(shù)據(jù)更重要,分析可以獲取信息,信息可以幫助你采取行動,行動則可以創(chuàng)造價值。這是我們需要遵循的經(jīng)典流程。

          圖片 

          圖片


          嘗試描述和理解數(shù)據(jù),捕獲數(shù)據(jù)并實(shí)現(xiàn)其意義,之后再采取行動做出預(yù)測,我們能從數(shù)據(jù)中獲得些信息,以便于以后不會再犯類似的錯誤或可以創(chuàng)造更好的價值,再進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)分析過程的優(yōu)化。這就叫做數(shù)據(jù)成熟度。以下圖片中展示了你們需要學(xué)習(xí)和使用的數(shù)據(jù)分析工具。Hadoop用于數(shù)據(jù)存儲和分析,MangoDB用于變化頻率高的數(shù)據(jù)集,Talend用于數(shù)據(jù)整合和管理,Cassandra用于分布式數(shù)據(jù)集,Spark用于實(shí)時加工和分析大體量數(shù)據(jù)。

          圖片 

          圖片


          數(shù)據(jù)分析和數(shù)據(jù)科學(xué)彼此相關(guān),但是關(guān)注點(diǎn)不同。數(shù)據(jù)科學(xué)是在學(xué)校里學(xué)的課程,學(xué)習(xí)算法統(tǒng)計模型和代碼,用知識來幫助你更好地理解數(shù)據(jù)。

          圖片 

          圖片


          下圖展示了數(shù)據(jù)分析的10個主要趨勢。AI對數(shù)據(jù)知識簡化助力頗多,我們有了更好的工具和技術(shù),可以幫助我們分析數(shù)據(jù)。但問題是數(shù)據(jù)過于碎片化,對于決策而言,其涵蓋不同方面,如何在采取行動前從不同途經(jīng)捕獲數(shù)據(jù),另外一點(diǎn)是混合云服務(wù),我們無法將所有數(shù)據(jù)都存儲在學(xué)校內(nèi),因?yàn)閿?shù)據(jù)量過于龐大,所以我們使用云計算,現(xiàn)在是混合云服務(wù),包括公共云和隱私云,每一種各有利弊。我們?nèi)绾卧趦煞N云結(jié)構(gòu)中處理好數(shù)據(jù)。萬物始自數(shù)據(jù),數(shù)據(jù)是整個學(xué)科的中心。談?wù)撍性掝}之前都要先學(xué)習(xí)理解該學(xué)科的數(shù)據(jù)。

          圖片 

          圖片


          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉