首頁 > IT問答庫 >大數據 > 什麼叫大數據

什麼叫大數據

近幾年,大數據成為互聯網行業的一個主流詞彙,出現頻率很高,關注度也很高。但至于什麼叫大數據卻讓很多外行人摸不清。

01、大數據的定義

行業裡對大數據的定義有很多,有廣義的定義,也有狹義的定義。
廣義的定義,有點哲學味道——大數據,是指物理世界到數字世界的映射和提煉。通過發現其中的數據特征,從而做出提升效率的決策行為。
狹義的定義,是技術工程師給的——大數據,是通過獲取、存儲、分析,從大容量數據中挖掘價值的一種全新的技術架構。
相比較而言,我還是喜歡技術定義,哈哈。
大家注意,關鍵詞我都在上面原句加粗了哈!
要做什麼?——獲取數據、存儲數據、分析數據
對誰做?——大容量數據
目的是什麼?——挖掘價值
獲取數據、存儲數據、分析數據,這一系列的行為,都不算新奇。我們每天都在用電腦,每天都在幹這個事。
例如,每月的月初,考勤管理員會獲取每個員工的考勤信息,錄入Excel表格,然後存在電腦裡,統計分析有多少人遲到、缺勤,然後扣TA工資。
但是,同樣的行為,放在大數據身上,就行不通了。換言之,傳統個人電腦,傳統常規軟件,無力應對的數據級别,才叫“大數據”。

02、大數據,到底有多大?  

我們傳統的個人電腦,處理的數據,是GB/TB級别。例如,我們的硬盤,現在通常是1TB/2TB/4TB的容量。
TB、GB、MB、KB的關系,大家應該都很熟悉了:
1 KB = 1024 B  (KB - kilobyte) 
1 MB = 1024 KB (MB - megabyte) 
1 GB = 1024 MB (GB - gigabyte) 
1 TB = 1024 GB (TB - terabyte) 
而大數據是什麼級别呢?PB/EB級别。
大部分人都沒聽過。其實也就是繼續翻1024倍:
1 PB = 1024 TB (PB - petabyte) 
1 EB = 1024 PB (EB - exabyte) 
隻是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。
1TB,隻需要一塊硬盤可以存儲。容量大約是20萬張照片或20萬首MP3音樂,或者是671部《紅樓夢》小說。
▲普通硬盤
1PB,需要大約2個機櫃的存儲設備。容量大約是2億張照片或2億首MP3音樂。如果一個人不停地聽這些音樂,可以聽1900年……
▲2個機櫃
1EB,需要大約2000個機櫃的存儲設備。如果并排放這些機櫃,可以連綿1.2公裡那麼長。如果擺放在機房裡,需要21個标準籃球場那麼大的機房,才能放得下。
▲21個籃球場
阿裡、百度、騰訊這樣的互聯網巨頭,數據量據說已經接近EB級。
EB還不是最大的。目前全人類的數據量,是ZB級。
1 ZB = 1024 EB (ZB - zettabyte) 
2011年,全球被創建和複制的數據總量是1.8ZB。
而到2020年,全球電子設備存儲的數據,将達到35ZB。如果建一個機房來存儲這些數據,那麼,這個機房的面積将比42個鳥巢體育場還大。
數據量不僅大,增長還很快——每年增長50%。也就是說,每兩年就會增長一倍。
目前的大數據應用,還沒有達到ZB級,主要集中在PB/EB級别。
大數據的級别定位:
1 KB = 1024 B  (KB - kilobyte) 
1 MB = 1024 KB (MB - megabyte) 
1 GB = 1024 MB (GB - gigabyte) 
1 TB = 1024 GB (TB - terabyte) 
1 PB = 1024 TB (PB - petabyte) 
1 EB = 1024 PB (EB - exabyte) 
1 ZB = 1024 EB (ZB - zettabyte) 
 

03、大數據的來源

數據的增長,為什麼會如此之快?
說到這裡,就要回顧一下人類社會數據産生的幾個重要階段。
大緻來說,是三個重要的階段。
第一個階段,就是計算機被發明之後的階段。尤其是數據庫被發明之後,使得數據管理的複雜度大大降低。各行各業開始産生了數據,從而被記錄在數據庫中。這時的數據,以結構化數據為主(待會解釋什麼是“結構化數據”)。數據的産生方式,也是被動的。
▲世界上第一台通用計算機ENIAC
第二個階段,是伴随着互聯網2.0時代出現的。互聯網2.0的最重要标志,就是用戶原創内容。随着互聯網和移動通信設備的普及,人們開始使用博客、facebook、youtube這樣的社交網絡,從而主動産生了大量的數據。
第三個階段,是感知式系統階段。随着物聯網的發展,各種各樣的感知層節點開始自動産生大量的數據,例如遍布世界各個角落的傳感器、攝像頭。
經過了“被動-主動-自動”這三個階段的發展,最終導緻了人類數據總量的極速膨脹。

04、大數據的挑戰

說了那麼多大數據的好話,并不代表大數據是完美的。
大數據也面臨着很多挑戰。
除了大數據管理技術難度之外,大數據的最大挑戰,就是安全。
數據是資産,也是隐私。沒有人願意自己的隐私被暴露,所以,人們對自己的隐私保護越來越重視。政府也在不斷加強對公民隐私權的保護,出台了很多法律。
▲歐盟在2018年出台了有史以來最嚴厲的GDPR(《一般數據保護法案》),把網絡數據保護上升到前所未有的高度
在這種情況下,企業獲取用戶數據,就需要慎重考慮,是否符合倫理和法律。一旦違法,将付出極為沉重的代價。
此外,即使企業合法獲取數據,也要擔心是否會被惡意攻擊和竊取。這裡面的風險也是不容忽視的。
除了安全之外,大數據還要面臨能耗等方面的問題。
換言之,如果不能很好地保護和利用手裡的大數據,那麼它就是一個燙手的山芋,有還不如沒有。
到底什麼叫大數據,其實并不難理解。
随着互聯網行業的發展,大數據成為我們生活中必不可少的一部分,絕大多數人已經慢慢習慣了它們的存在。
當然,大數據雖然為生活帶來便利,同時我們也面臨着個人信息被洩露的風險。
所以,我們在享受大數據為生活帶來的便捷的同時也要注意保護好自己的個人隐私。
 
可分享到:
上一篇 : 學大數據還是人工智能好呢?
下一篇 : 大數據行業前景怎麼樣
你可能感興趣的内容|INTERESTING NEWS

限時優惠
本周申請限100個名額