色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專(zhuān)欄

          EEPW首頁(yè) > 博客 > 獨(dú)家 | Zero-ETL, ChatGPT以及數(shù)據(jù)工程的未來(lái)(2)

          獨(dú)家 | Zero-ETL, ChatGPT以及數(shù)據(jù)工程的未來(lái)(2)

          發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2023-07-17 來(lái)源:工程師 發(fā)布文章
          OBT和大型語(yǔ)言模型

          圖片 

          圖片


          它是什么:目前,業(yè)務(wù)利益相關(guān)者需要向數(shù)據(jù)專(zhuān)業(yè)人員表達(dá)他們的需求、指標(biāo)和邏輯,然后數(shù)據(jù)專(zhuān)業(yè)人員將其全部轉(zhuǎn)換為 SQL 查詢(xún)甚至儀表板。該過(guò)程需要時(shí)間,即使數(shù)據(jù)倉(cāng)庫(kù)中已存在所有數(shù)據(jù)也是如此。更不用說(shuō)在數(shù)據(jù)團(tuán)隊(duì)最喜歡的活動(dòng)列表中,臨時(shí)數(shù)據(jù)請(qǐng)求的排名介于根管和文檔之間。


          有一群初創(chuàng)公司旨在利用像 GPT-4 這樣的大型語(yǔ)言模型的力量,通過(guò)讓消費(fèi)者在平滑的界面中“查詢(xún)”自然語(yǔ)言中的數(shù)據(jù)來(lái)自動(dòng)化該過(guò)程。


          圖片圖片至少在我們的新機(jī)器人霸主使二進(jìn)制成為新的官方語(yǔ)言之前


          這將從根本上簡(jiǎn)化自助式分析過(guò)程,并進(jìn)一步使數(shù)據(jù)大眾化,但考慮到更高級(jí)分析的數(shù)據(jù)管道的復(fù)雜性,除了基本的“指標(biāo)獲取”之外,該問(wèn)題很難解決。


          但是,如果通過(guò)將所有原始數(shù)據(jù)填充到一個(gè)大表中來(lái)簡(jiǎn)化這種復(fù)雜性呢?


          這是本恩·斯坦西爾(Benn Stancil)提出的想法,他是數(shù)據(jù)領(lǐng)域最優(yōu)秀和有遠(yuǎn)見(jiàn)的作家/創(chuàng)始人之一。沒(méi)有人比他更能預(yù)見(jiàn)現(xiàn)代數(shù)據(jù)堆棧的消亡。


          作為一個(gè)概念,它并非那么遙不可及。一些數(shù)據(jù)團(tuán)隊(duì)已經(jīng)開(kāi)始使用褒貶不一的(one big table, OBT)策略了。


          利用大型語(yǔ)言模型似乎可以克服使用OBT的最大挑戰(zhàn)之一,即在發(fā)現(xiàn)和模式識(shí)別方面的困難以及其完全缺乏組織性。對(duì)于人類(lèi)來(lái)說(shuō),為他們的故事提供一個(gè)目錄和標(biāo)記良好的章節(jié)是十分有用的,但人工智能并不在乎。


          優(yōu)點(diǎn):也許可以最終兌現(xiàn)自助式數(shù)據(jù)分析的承諾;快速獲得見(jiàn)解;使數(shù)據(jù)團(tuán)隊(duì)能夠?qū)⒏鄷r(shí)間用于釋放數(shù)據(jù)價(jià)值和構(gòu)建,減少響應(yīng)即席查詢(xún)的時(shí)間。


          缺點(diǎn):是否自由過(guò)度?數(shù)據(jù)專(zhuān)業(yè)人員熟悉數(shù)據(jù)令人痛苦的怪癖(時(shí)區(qū)!什么是“帳戶(hù)”?),而在某種程度上,大多數(shù)業(yè)務(wù)利益相關(guān)者對(duì)此卻并不熟悉。我們是否受益于代議制而不是直接的數(shù)據(jù)民主?


          誰(shuí)在推動(dòng)它:Delphi和 GetDot.AI 等超級(jí)早期創(chuàng)業(yè)公司。像Narrator這樣的初創(chuàng)公司。更成熟的參與者正在做一些這樣的版本,如Amazon QuickSight,Tableau Ask Data或ThoughtSpot。


          實(shí)用性和價(jià)值釋放潛力:令人耳目一新的是,這不是一項(xiàng)尋找用例的技術(shù)。價(jià)值和效率是顯而易見(jiàn)的,但技術(shù)挑戰(zhàn)也是顯而易見(jiàn)的。這一愿景仍在構(gòu)建中,需要更多的時(shí)間來(lái)制定。也許采用的最大障礙將是所需的基礎(chǔ)設(shè)施中斷,這對(duì)于更成熟的組織來(lái)說(shuō)可能風(fēng)險(xiǎn)太大。


          數(shù)據(jù)產(chǎn)品容器


          它是什么:數(shù)據(jù)表是構(gòu)建數(shù)據(jù)產(chǎn)品的數(shù)據(jù)的構(gòu)建基塊。事實(shí)上,許多數(shù)據(jù)領(lǐng)導(dǎo)者將生產(chǎn)表視為他們的數(shù)據(jù)產(chǎn)品。但是,要將數(shù)據(jù)表視為產(chǎn)品,需要對(duì)許多功能進(jìn)行分層,包括訪(fǎng)問(wèn)管理、發(fā)現(xiàn)和數(shù)據(jù)可靠性。


          容器化已成為軟件工程中微服務(wù)運(yùn)動(dòng)不可或缺的一部分。它們?cè)鰪?qiáng)了可移植性、基礎(chǔ)架構(gòu)抽象,并最終使組織能夠擴(kuò)展微服務(wù)。數(shù)據(jù)產(chǎn)品容器概念設(shè)想了數(shù)據(jù)表的類(lèi)似容器化。


          數(shù)據(jù)產(chǎn)品容器可能被證明是使數(shù)據(jù)更加可靠和可治理的有效機(jī)制,特別是如果它們可以更好地呈現(xiàn)與數(shù)據(jù)基礎(chǔ)單元關(guān)聯(lián)的語(yǔ)義定義、數(shù)據(jù)沿襲和質(zhì)量指標(biāo)等信息。


          優(yōu)點(diǎn):數(shù)據(jù)產(chǎn)品容器似乎是更好地打包和執(zhí)行四個(gè)數(shù)據(jù)網(wǎng)格原則(聯(lián)合治理、數(shù)據(jù)自助服務(wù)、將數(shù)據(jù)視為產(chǎn)品、域優(yōu)先基礎(chǔ)結(jié)構(gòu))的一種方式。


          缺點(diǎn):這個(gè)概念會(huì)讓組織更容易還是更難擴(kuò)展其數(shù)據(jù)產(chǎn)品?對(duì)于許多這些未來(lái)數(shù)據(jù)趨勢(shì),另一個(gè)基本問(wèn)題是,數(shù)據(jù)管道的副產(chǎn)品(代碼、數(shù)據(jù)、元數(shù)據(jù))是否包含值得數(shù)據(jù)團(tuán)隊(duì)保留的價(jià)值?


          誰(shuí)在推動(dòng)它:Nextdata,由數(shù)據(jù)網(wǎng)格創(chuàng)建者Zhamak Dehgahni創(chuàng)立的創(chuàng)業(yè)公司。Nexla也一直在這個(gè)領(lǐng)域發(fā)揮作用。


          實(shí)用性和價(jià)值釋放潛力:雖然Nextdata最近才從隱身中脫穎而出,數(shù)據(jù)產(chǎn)品容器仍在不斷發(fā)展,但許多數(shù)據(jù)團(tuán)隊(duì)已經(jīng)看到了數(shù)據(jù)網(wǎng)格實(shí)施的成熟結(jié)果。數(shù)據(jù)表的未來(lái)將取決于這些容器的確切形態(tài)和執(zhí)行。


          數(shù)據(jù)生命周期的無(wú)盡想象重構(gòu)

          圖片 

          圖片圖片來(lái)自Unsplash, zero

          為了窺探數(shù)據(jù)的未來(lái),我們需要回顧過(guò)去和現(xiàn)在的數(shù)據(jù)。過(guò)去、現(xiàn)在、未來(lái)——數(shù)據(jù)基礎(chǔ)設(shè)施處于不斷中斷和重生的狀態(tài)(盡管我們可能需要更多的混亂)。


          數(shù)據(jù)倉(cāng)庫(kù)的含義與 Bill Inmon 在 1990 年代引入的術(shù)語(yǔ)相比發(fā)生了巨大變化。ETL 管道現(xiàn)在是 ELT 管道。數(shù)據(jù)池不像兩年前那樣無(wú)固定的形狀。


          隨著現(xiàn)代數(shù)據(jù)堆棧帶來(lái)的這些創(chuàng)新,數(shù)據(jù)工程師在決定數(shù)據(jù)如何移動(dòng)以及數(shù)據(jù)消費(fèi)者如何訪(fǎng)問(wèn)數(shù)據(jù)方面仍然發(fā)揮著核心的技術(shù)作用。但有些變化比其他變化更大、更可怕。


          Zero-ETL這個(gè)術(shù)語(yǔ)似乎很有威脅,因?yàn)樗ú粶?zhǔn)確地)暗示了管道的消亡,如果沒(méi)有管道,我們需要數(shù)據(jù)工程師嗎?


          盡管 ChatGPT 生成代碼的能力背后大肆宣傳,但這個(gè)過(guò)程仍然掌握在技術(shù)數(shù)據(jù)工程師手中,他們?nèi)匀恍枰獙彶楹驼{(diào)試。大型語(yǔ)言模型的可怕之處在于它們?nèi)绾螐母旧吓で鷶?shù)據(jù)管道或我們與數(shù)據(jù)消費(fèi)者的關(guān)系(以及如何向他們提供數(shù)據(jù))。


          然而,這個(gè)未來(lái),如果它成為現(xiàn)實(shí),仍然強(qiáng)烈依賴(lài)數(shù)據(jù)工程師。


          自古以來(lái)一直存在的是數(shù)據(jù)的一般生命周期。它被放出,它被塑造,它被使用,然后它被存檔(最好避免在這里糾纏于我們自己的消亡)。


          雖然底層基礎(chǔ)設(shè)施可能會(huì)發(fā)生變化,自動(dòng)化會(huì)將時(shí)間和注意力轉(zhuǎn)移到右邊或左邊,但在可預(yù)見(jiàn)的未來(lái),人類(lèi)數(shù)據(jù)工程師將繼續(xù)在從數(shù)據(jù)中提取價(jià)值方面發(fā)揮關(guān)鍵作用。


          這并不是因?yàn)槲磥?lái)的技術(shù)和創(chuàng)新無(wú)法簡(jiǎn)化當(dāng)今復(fù)雜的數(shù)據(jù)基礎(chǔ)設(shè)施,而是因?yàn)槲覀儗?duì)數(shù)據(jù)的需求和使用將繼續(xù)增加復(fù)雜性和規(guī)模。


          大數(shù)據(jù)已經(jīng)并且永遠(yuǎn)是一個(gè)來(lái)回?cái)[動(dòng)的鐘擺。我們?cè)谀芰ι舷蚯帮w躍,然后我們同樣迅速地找到一種方法來(lái)達(dá)到這些邊界,直到需要下一次飛躍。在這個(gè)循環(huán)中得到安慰——被需要是件好事。


          Shane Murray是這篇文章的合著者。請(qǐng)訂閱以將他的故事發(fā)送到您的收件箱。

          對(duì)數(shù)據(jù)質(zhì)量的未來(lái)感興趣,請(qǐng)聯(lián)系蒙特卡洛團(tuán)隊(duì)!


          原文標(biāo)題:Zero-ETL, ChatGPT, And The Future of Data Engineering原文鏈接:https://towardsdatascience.com/zero-etl-chatgpt-and-the-future-of-data-engineering-71849642ad9c



          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專(zhuān)區(qū)

          關(guān)閉