莱加内斯对莱万特




【煙臺網絡公司】每個人都應該知道的15個大數據術語

2019-05-15 09:32:19 ZILSHINE 125

煙臺致尚-煙臺網絡公司|品牌宣傳推廣

1.算法。“算法”如何與大數據相關?即使算法是一個通用術語,但大數據分析使其在當代更受青睞和流行。

2.分析。年末你可能會收到一份來自信用卡公司寄來的包含了全年所有交易記錄的年終報表。如果你有興趣進一步分析自己在食物、衣服、娛樂等方面具體花費占比呢?那你便是在做“分析”了。你正從一堆原始數據中來吸取經驗,以幫助自己為來年的消費做出決策。如果你正在針對整個城市人群對Twitter或Facebook的帖子做同樣的練習呢?那我們便是在討論大數據分析了。大數據分析的實質是利用大量數據來進行推斷和講故事。大數據分析有3種不同到的類型,接下來便繼續本話題進行依次討論。

 

3.描述性分析。剛剛如果你告訴我,去年你的信用卡消費在食物上花費了25%、在服裝上花費了35%、娛樂活動上花費了20%、剩下的就是雜七雜八的事項,這種便是描述性分析。當然你還可以參考更多的細節。

 

4.預測分析。如果你根據過去5年的信用卡歷史記錄來進行分析,并且劃分具有一定的連續性,則你可以高概率預測明年將與過去幾年相差無幾。此處需要注意的細節是,這并不是“預測未來”,而是未來可能會發生的“概率”。在大數據預測分析中,數據科學家可能會使用類似機器學習、高級的統計過程(后文將對這些術語進行介紹)等先進的技術去預測天氣、經濟變化等。

 

5.規范分析。沿用信用卡交易的案例,你可能想要找出哪方面的支出(級食品、服裝、娛樂等)對自己的整體支出產生巨大的影響。規范分析建立在預測分析的基礎之上,包含了“行動”記錄(例如減少食品、服裝、娛樂支出),并分析所得結果來“規定”最佳類別以減少總體支出。你可以嘗試將其發散到大數據,并設想高管們如何通過查看各種行動的影響來做出數據驅動的決策。

 

6.批處理。雖然批量數據處理在大型機時代就早已出現,但大數據交給它更多大數據集處理,因此賦予了批處理更多的意義。對于一段時間內收集到的一組事務,批量數據處理為處理大量數據提供了一種有效的方法。后文將介紹的Hadoop便是專注于批量數據處理。超越批處理的世界:流計算 使用Spark SQL構建批處理程序。

 

7. Cassandra是由Apache Software Foundation管理的一款流行的開源數據庫管理系統。很多大數據技術都歸功于Apache,其中Cassandra的設計初衷便是處理跨分布式服務器的大量數據。

 

8. 云計算。顯而易見云計算已經變得無所不在,所以本文可能無須贅述,但為了文章的完整性還是佐以介紹。云計算的本質是在遠程服務器上運行的軟件和(/或)數據托管,并允許從互聯網(煙臺網絡公司-專業建站)上的任何地方進行訪問。

 

9. 集群計算。它是一種利用多臺服務器的匯集資源的“集群”來進行計算的奇特方式。在了解了更多技術之后,我們可能還會討論節點、集群管理層、負載平衡和并行處理等。

 

10. 黑暗數據。依我看來,這個詞適用于那些嚇得六神無主的高級管理層們。從根本上來說,黑暗數據是指那些被企業收集和處理但又不用于任何有意義用途的數據,因此描述它是“黑暗的”,它們可能永遠被埋沒。它們可能是社交網絡信息流、呼叫中心日志、會議筆記,諸如此類。人們做出了諸多估計,在60-90%的所有企業數據都可能是“黑暗數據”,但無人真正知曉。

 

11. 數據湖。當我第一次聽到這個詞的時候,我真的以為有人在開愚人節的玩笑。但它真的是個術語!數據湖是一個原始格式的企業級數據的大型存儲庫。雖然此處討論的是數據湖,但有必要再一起討論下數據倉庫,因為數據湖和數據倉庫在概念上是極其相似的,都是企業級數據的存儲庫,但在清理和與其他數據源集成之后的結構化格式上有所區別。數據倉庫常用于常規數據(但不完全)。據說數據湖能夠讓用戶輕松訪問企業級數據,用戶真正按需知道自己正在尋找的是什么、如何處理并讓其智能化使用。擁抱開源技術的前提——認識數據湖 你知道數據湖泊(DATA LAKE)嗎?

 

12. 數據挖掘。數據挖掘是指利用復雜的模式識別技術從大量數據中找到有意義的模式、提取見解。這與我們前文討論的使用個人數據做分析的術語“分析”密切相關。為了提取出有意義的模式,數據挖掘者使用統計學(是呀,好老的數學)、機器學習算法和人工智能。

 

13.數據科學家。我們談論的是一個如此熱門的職業!數據科學家們可以通過提取原始數據(難道是從前文所說的數據湖中提取的?),處理數據,然后提出新見解。數據科學家所需具備的一些技能與超人無異:分析、統計、計算機科學、創造力、故事講述和理解業務環境。難怪他們能獲得如此高的薪水報酬。

 

14.分布式文件系統。由于大數據太大而無法在單個系統上進行存儲,分布式文件系統提供一種數據存儲系統,方便跨多個存儲設備進行大量數據的存放,并有助于降低大量數據存儲的成本和復雜度。

 

15. ETL。ETL分別是extract,transform,load的首字母縮寫,代表提取、轉化和加載的過程。 它具體是指“提取”原始數據,通過數據清洗/修飾的方式進行“轉化”以獲得 “適合使用”的數據,進而“加載”到合適的存儲庫中供系統使用的整個過程。盡管ETL這一概念源于數據倉庫,但現在也適用于其它情景下的過程,例如在大數據系統中從外部數據源獲取/吸收數據。

文章來自:網易新聞


煙臺網絡公司-煙臺致尚網絡科技,堅持為企業服務!企業網絡輿情監測,企業網絡新聞營銷,企業央視品牌宣傳,樹立健康企業形象,企業對外宣傳推廣顧問!


— 助您成功,是我們終身的事業! —

煙臺網絡公司|煙臺網絡輿情監測|煙臺網絡新聞營銷|央視品牌宣傳|煙臺網絡建站|煙臺網站搭建|煙臺好的網絡公司

莱加内斯对莱万特 网络棋牌看牌器 南粤风彩36选7开奖历史 山寨手机捕鱼大师 最新p62开奖结果查询 赛车ok10开奖记录 重庆时时赢面大赌法 刘佄温中特网 内蒙古时时54 最新时时平台皇冠网 上海时时票机破解 北京时时彩基本走势图 江苏十一选五走势下载