色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

新聞中心

EEPW首頁 > 消費電子 > 設(shè)計應(yīng)用 > 大數(shù)據(jù)行業(yè)必須掌握的25個大數(shù)據(jù)術(shù)語

大數(shù)據(jù)行業(yè)必須掌握的25個大數(shù)據(jù)術(shù)語

作者：時間：2018-07-26 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

提到大數(shù)據(jù)可能有些令人生畏。在了解一定基本概念的基礎(chǔ)上，掌握其中一些關(guān)鍵術(shù)語也是至關(guān)重要的。

本文引用地址：http://cafeforensic.com/article/201807/384132.htm

本文列出了 25 個必須掌握的大數(shù)據(jù)術(shù)語。

算法(Algorithm)

指用于執(zhí)行數(shù)據(jù)分析的數(shù)學(xué)公式或統(tǒng)計過程。那么算法與大數(shù)據(jù)有什么關(guān)系呢?雖然算法是一個通用術(shù)語，但大數(shù)據(jù)分析使得這個詞變得更具時代性，更受歡迎。

分析(Analytics)

你的信用卡公司會將附有你全年交易情況的年終報表寄給你。如果具體看在食物，衣服，娛樂等方面花了多少錢呢?那么你就在進(jìn)行“分析”。你正在從原始數(shù)據(jù)中獲得一些見解，這可以幫助你決定來年的支出。

如果你對朋友、網(wǎng)絡(luò)或者自己的公司發(fā)的推文以及 facebook 帖子進(jìn)行同樣的操作，那我們現(xiàn)在就涉及的就是大數(shù)據(jù)分析了。它是通過使用大量數(shù)據(jù)進(jìn)行推論并得出結(jié)論。共有三種不同類型的分析。

1. 描述性分析(Descriptive Analytics)

如果你告訴我，去年你的信用卡消費中 25% 用于食物，35% 用于服裝，20% 用于娛樂活動，其他的用于雜物，這就是描述性的分析。當(dāng)然，你也可以進(jìn)行更詳細(xì)的了解。

2. 預(yù)測分析(Predictive Analytics)

如果你分析了過去5年的信用卡記錄，發(fā)現(xiàn)當(dāng)中有一定的一致性，那么你可以較有把握地預(yù)測，明年的情況將與過去幾年類似。值得注意的是，這并不是“預(yù)測未來”，而是“預(yù)測事情發(fā)生的可能性”。在大數(shù)據(jù)預(yù)測分析中，數(shù)據(jù)科學(xué)家會使用數(shù)據(jù)挖掘，機(jī)器學(xué)習(xí)和高級統(tǒng)計過程等先進(jìn)技術(shù)，進(jìn)行天氣，經(jīng)濟(jì)等方面的預(yù)測。

3.規(guī)范分析(Prescriptive Analytics)

還是用信用卡的例子，你可能會想知道哪些消費目標(biāo)(例如食品、娛樂、服裝等)會對你的整體消費產(chǎn)生巨大的影響。規(guī)范分析通過包括“行為”(即減少購買食物、衣服或娛樂)和對結(jié)果進(jìn)行分析，從而預(yù)測規(guī)范相應(yīng)目標(biāo)，從而減少你的總開銷。將此擴(kuò)展到大數(shù)據(jù)，你可以想象管理人員如何通過研究各種行為影響，從而做出數(shù)據(jù)驅(qū)動的決策。

批量處理(Batch processing)

盡管從大型計算機(jī)時代開始，批量處理就已經(jīng)出現(xiàn)了。由于處理大型數(shù)據(jù)集，批量處理對大數(shù)據(jù)具有額外的意義。批量數(shù)據(jù)處理是處理一段時間內(nèi)收集的大量數(shù)據(jù)的有效方式。稍后我將介紹的 Hadoop 就是專注于批量數(shù)據(jù)處理。

Cassandra

是由 Apache 軟件基金會管理的一個流行的開源數(shù)據(jù)庫管理系統(tǒng)。Apache 屬于大數(shù)據(jù)技術(shù)，Cassandra 旨在處理跨分布式服務(wù)器的大量數(shù)據(jù)。

云計算(Cloud computing)

云計算已經(jīng)變得無所不在，所以在這里僅處于完整性的考慮將其歸納在內(nèi)。它本質(zhì)上是在遠(yuǎn)程服務(wù)器上托管和運行的軟件及數(shù)據(jù)，并可從互聯(lián)網(wǎng)的任何地方進(jìn)行訪問。

集群計算(Cluster computing)

這是一個使用多個服務(wù)器集合資源的“集群”的計算術(shù)語。要想更技術(shù)性的話，就會涉及到節(jié)點，集群管理層，負(fù)載平衡和并行處理等概念。

暗數(shù)據(jù)(Dark Data)

基本上指的是，由企業(yè)收集和處理的，但并不用于任何意義性目的的數(shù)據(jù)，因此它是“暗”的，可能永遠(yuǎn)不會被分析。它可以是社交網(wǎng)絡(luò)反饋，呼叫中心日志，會議筆記等等。有很多人估計，所有企業(yè)數(shù)據(jù)中的 60-90% 可能是“暗數(shù)據(jù)”，但誰又真正知道呢?

數(shù)據(jù)湖(Data lake)

當(dāng)?shù)谝淮温牭竭@個概念，我還以為是在開玩笑。但這真是一個術(shù)語。數(shù)據(jù)湖是原始格式的企業(yè)級數(shù)據(jù)的大型存儲庫。與此同時我們可以涉及數(shù)據(jù)倉庫，它在概念上是相似的，也是企業(yè)級數(shù)據(jù)的存儲庫，但在清理、與其他來源集成之后是以結(jié)構(gòu)化格式。數(shù)據(jù)倉庫通常用于常規(guī)數(shù)據(jù)(但不是專有的)。數(shù)據(jù)湖使得訪問企業(yè)級數(shù)據(jù)更加容易，你需要明確你要尋找什么，以及如何處理它并明智地試用它。

數(shù)據(jù)挖掘(Data mining)

數(shù)據(jù)挖掘是通過使用復(fù)雜的模式識別技術(shù)，從而找到有意義的模式，并得出大量數(shù)據(jù)的見解。這與我們之前討論的“數(shù)據(jù)分析”術(shù)語密切相關(guān)，因為你將通過挖掘數(shù)據(jù)進(jìn)行分析。為了獲得有意義的模式，數(shù)據(jù)挖掘者使用統(tǒng)計，機(jī)器學(xué)習(xí)算法和人工智能。

數(shù)據(jù)科學(xué)家(Data Scientist)

一個熱門的職業(yè)。指的是通過提取原始數(shù)據(jù)，對其進(jìn)行處理，并提出自己的見解的人。數(shù)據(jù)科學(xué)家需要具備超人般的技能：分析，統(tǒng)計，計算機(jī)科學(xué)，創(chuàng)造力，故事講述和理解環(huán)境的能力。難怪他們薪水這么高。

分布式文件系統(tǒng)(Distributed File System)

由于大數(shù)據(jù)太大而無法存儲在單個系統(tǒng)上，分布式文件系統(tǒng)是一種數(shù)據(jù)存儲系統(tǒng)用于存儲跨多個存儲設(shè)備的大量數(shù)據(jù)，并有助于降低存儲大量數(shù)據(jù)的成本和復(fù)雜性。

ETL

ETL 指的是提取，轉(zhuǎn)換和加載。具體指的是“提取”原始數(shù)據(jù)的過程，通過清理、豐富數(shù)據(jù)將其“轉(zhuǎn)換”成適合使用的，并“加載”到適當(dāng)?shù)拇鎯熘幸怨┫到y(tǒng)使用。雖然它源于數(shù)據(jù)倉庫，但ETL過程也被用來從大數(shù)據(jù)系統(tǒng)的外部資源中獲取和吸收數(shù)據(jù)。

Hadoop

當(dāng)想到大數(shù)據(jù)時，人們立即會想到 Hadoop 。Hadoop(具有可愛的大象標(biāo)志)是一個開源軟件框架，由所謂的 Hadoop 分布式文件系統(tǒng)(HDFS)組成，并允許使用分布式硬件對非常大的數(shù)據(jù)集進(jìn)行存儲，檢索和分析。如果你真的想給別人留下深刻的印象，還可以談?wù)?YARN，顧名思義，這是一種資源調(diào)度程序。取名字的人真太有才了。Apache 基金會還推出了 Hadoop，Pig，Hive 以及 Spark(是的，這些都是各種軟件的名稱)。真是服了這些名字。

內(nèi)存計算(In-memory computing)

一般來說，任何可以在不訪問 I / O 的情況下完成的計算都是很快的。內(nèi)存計算是一種將工作數(shù)據(jù)集完全放在集群的集體內(nèi)存中，避免將中間計算寫入磁盤的技術(shù)。Apache Spark 是一個內(nèi)存計算系統(tǒng)，它在速度超過 I / O 綁定系統(tǒng)(如 Hadoop 的MapReduce)方面擁有巨大的優(yōu)勢。

物聯(lián)網(wǎng)(IoT)

最新的流行語是物聯(lián)網(wǎng)(IOT)。IOT 通過互聯(lián)網(wǎng)將嵌入式對象(傳感器，可穿戴設(shè)備，汽車，冰箱等)中的計算設(shè)備進(jìn)行互連，并且能夠發(fā)送以及接收數(shù)據(jù)。IOT 生成大量數(shù)據(jù)，提供了大量大數(shù)據(jù)分析的機(jī)會。

機(jī)器學(xué)習(xí)(Machine learning)

機(jī)器學(xué)習(xí)是指通過提供的數(shù)據(jù)，使系統(tǒng)能夠?qū)W習(xí)，調(diào)整和改進(jìn)。通過預(yù)測和統(tǒng)計算法，他們不斷學(xué)習(xí)“正確”的行為和洞察力，隨著更多的數(shù)據(jù)流通過該系統(tǒng)，得以不斷地改進(jìn)。

MapReduce

MapReduce 可能會有點難懂。MapReduce 是一個編程模型，為了更好的理解，需注意 Map 和 Reduce 其實是兩個獨立的部分。在這種情況下，編程模型首先將大數(shù)據(jù)數(shù)據(jù)集分解成多個部分(在技術(shù)術(shù)語中稱為“元組”)，因此可以分布在不同位置的不同計算機(jī)上(即前面所述的集群計算)，這基本上就是 Map 部分。然后，該模型收集結(jié)果并將其“減少”為一個報告。MapReduce 的數(shù)據(jù)處理模式與Hadoop 的分布式文件系統(tǒng)緊密相關(guān)。

NoSQL

聽起來像是 SQL (結(jié)構(gòu)化查詢語言)的反面，SQL 是傳統(tǒng)關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)的主要內(nèi)容。但 NOSQL 實際上意味著不僅僅是 SQL (Not ONLY SQL)。NoSQL 實際上是指的是用于處理大量數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng)，它們不具有結(jié)構(gòu)，或被稱為“架構(gòu)”(類似關(guān)系數(shù)據(jù)庫)。NoSQL 數(shù)據(jù)庫通常適合大型數(shù)據(jù)系統(tǒng)，因為它們具有大型非結(jié)構(gòu)化數(shù)據(jù)庫所需的靈活性和分布式的優(yōu)先體系結(jié)構(gòu)。

R

R 是一種編程語言，在統(tǒng)計計算方面很出色。如果你不知道 R，你就稱不上是數(shù)據(jù)科學(xué)家。R 是數(shù)據(jù)科學(xué)中最受歡迎的語言之一。

Spark(Apache Spark)

Apache Spark 是一種快速的內(nèi)存數(shù)據(jù)處理引擎，用于高效執(zhí)行流，機(jī)器學(xué)習(xí)或需要快速迭代訪問數(shù)據(jù)集的 SQL 工作負(fù)載。Spark 通常比我們前面提及的 MapReduce 快很多。

流處理(Stream processing)

流處理旨在對有“連續(xù)”要求的實時和流數(shù)據(jù)進(jìn)行處理。結(jié)合流分析，即在流內(nèi)不間斷地計算數(shù)學(xué)或統(tǒng)計分析的能力。流處理解決方案旨在對高流量進(jìn)行實時處理。

結(jié)構(gòu)化 v 非結(jié)構(gòu)化數(shù)據(jù)(Structured v Unstructured Data)

這是大數(shù)據(jù)中的“V”之一，即多樣性。結(jié)構(gòu)化數(shù)據(jù)基本上指任何可以放在關(guān)系數(shù)據(jù)庫中，并以該方式組織起來，通過表與其他數(shù)據(jù)相關(guān)。非結(jié)構(gòu)化數(shù)據(jù)則反之，如無法發(fā)電子郵件，發(fā)社交媒體帖子和錄制的人類語音等。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 計算機(jī) 云計算

評論

相關(guān)推薦

計算機(jī)麥克風(fēng)電路圖

設(shè)計方案計算機(jī) 麥克風(fēng) 電路圖 | 2009-07-06

我國設(shè)立計算機(jī)創(chuàng)新獎勵基金

hpnet | 2002-05-17

利用計算機(jī)并口和MAX7221驅(qū)動LED程序

資源下載計算機(jī) 并口 LED驅(qū)動 MAX7221 | 2007-02-09

人機(jī)接口與協(xié)議自適應(yīng)

資源下載計算機(jī) 普適網(wǎng)絡(luò)協(xié)議接口自適應(yīng) | 2008-01-06

計算機(jī)音頻工作站總論--音頻工作站與硬盤錄音機(jī)同類比較(轉(zhuǎn)載）

hpnet | 2002-05-15

模擬大腦突觸的液體電路如何實現(xiàn)計算機(jī)的邏輯運算

電路計算機(jī) 邏輯運算 | 2024-04-18

第一講安卓應(yīng)用開發(fā)介紹

視頻 Android 計算機(jī) | 2012-07-18

BIOS是什么？

嵌入式系統(tǒng) BIOS 計算機(jī) | 2024-03-11

消息稱微軟裁員1000多人涉及云計算、混合現(xiàn)實等部門

智能計算微軟云計算混合現(xiàn)實 | 2024-06-04

世界工控技術(shù)市場的現(xiàn)狀和未來

hpnet | 2002-07-23

采用TC620溫度傳感器的計算機(jī)機(jī)房溫控電路

設(shè)計方案采用 TC620 溫度傳感器計算機(jī) 機(jī)房溫控 | 2009-07-06

第二講 Hello World

視頻 Android 計算機(jī) | 2012-07-18

TL5001構(gòu)成計算機(jī)LCD顯示器的高壓電源的應(yīng)用電路

設(shè)計方案 TL5001 構(gòu)成計算機(jī) 顯示器高壓電源應(yīng)用電路 | 2009-07-06

國家數(shù)據(jù)局：“東數(shù)西算”工程 10 個國家數(shù)據(jù)中心集群算力總規(guī)模超 146 萬標(biāo)準(zhǔn)機(jī)架

智能計算東數(shù)西算數(shù)據(jù)中心云計算 | 2024-07-22

豐田將與騰訊在電動汽車人工智能、云計算和大數(shù)據(jù)方面展開合作

汽車電子豐田騰訊電動汽車人工智能云計算大數(shù)據(jù) | 2024-05-07

谷歌云計算部門再裁員，至少100名員工受影響

國際視野谷歌計算機(jī) 國際 | 2024-06-04

DK04監(jiān)控模塊與計算機(jī)通信接口電路

設(shè)計方案監(jiān)控模塊計算機(jī) 通信接口 | 2009-07-06

帶光隔離的計算機(jī)彩燈控制器

資源下載計算機(jī) 計算機(jī)彩燈控制器 | 2007-12-25

第四講網(wǎng)絡(luò)數(shù)據(jù)獲取和顯示

視頻 Android 計算機(jī) | 2012-07-18

計算機(jī)通訊在計量管理中的應(yīng)用

hpnet | 2002-07-18

很好的一篇入門文章，特別推薦(老站轉(zhuǎn))

amine | 2002-05-28

第五講用戶界面改進(jìn)

視頻 Android 計算機(jī) | 2012-07-18

我國西部首個，重慶算力互聯(lián)互通平臺在兩江新區(qū)上線

智能計算云計算網(wǎng)絡(luò) 服務(wù)器 | 2024-07-11

第三講用戶界面基礎(chǔ)

視頻 Android 計算機(jī) | 2012-07-18

再再再升級！美國修訂半導(dǎo)體出口管制措施，擬于4月4日生效

嵌入式系統(tǒng) 美國半導(dǎo)體 AI 芯片云計算 | 2024-04-02

利用計算機(jī)設(shè)計單片開關(guān)電源講座(1)

資源下載計算機(jī) 電源單片開關(guān)電源 | 2007-02-09

FPT Smart Cloud 成為英偉達(dá)NCP云服務(wù)生態(tài)合作伙伴

智能計算云計算越南日本 FPT | 2024-03-18

亞馬遜云科技與英偉達(dá)擴(kuò)展合作持續(xù)推進(jìn)生成式AI創(chuàng)新

智能計算亞馬遜云科技云計算英偉達(dá) | 2024-03-20

電腦串口、并口連接線大全

資源下載計算機(jī) 串口并口連接線 | 2008-01-06

由智能化遠(yuǎn)程熱風(fēng)扇控制器ADT7460構(gòu)成的計算機(jī)的散熱控制電路

設(shè)計方案智能化遠(yuǎn)程風(fēng)扇控制器 ADT7460 構(gòu)成計算機(jī) 散 | 2009-07-06

焦點

推薦視頻

技術(shù)專區(qū)