色综合视频网_亚洲91网_一及毛片视频_久久精品网_国产一区二区在线免费_18欧美性xxxx极品hd

咨詢熱線:021-80392549

 QQ在線  企業微信
 資訊 > 大數據 > 正文

四個特征帶你了解大數據的定義

2020/05/18智品會431

四個特征帶你了解大數據的定義


大數據是當前較為火爆的一個詞匯,究竟什么是大數據、大數據的概念是怎樣的?大數據有哪些特質,大數據有哪些技術方面的要求,大數據對當前社會產生了哪些重要的影響?

國內知名大數據專家、中科院計算所博士、職品匯創始人龔才春博士對此做了詳盡的分析,他指出:“從常規定義來講,大數據就是大小超出常規數據庫工具獲取、存儲、管理和分析能力的數據庫,并且也強調,不是說一定要超過特定TB的數據集才是大數據。這個定義并沒有詮釋什么是常規的數據庫工具,也沒有詮釋大數據與數據量的關系,是一個比較原始的大數據定義。”

而國際數據公司(International Data CorporaTIon,簡稱IDC)則從四個特征定義大數據:數據規模龐大(Volume)、數據更新頻繁(Velocity)、數據類型多樣(Variety)和數據價值巨大(Value)。

龔博士認為,在上述四大定義的基礎上,一般偏向于再加上數據處理復雜(Complexity),構成相對完整的大數據的定義,這就是大家耳熟能詳的4V+1C。

1.數據規模龐大(Volume)

當數據規模很小時,屬于傳統的“小數據”時代的問題,已有非常成熟的數據存儲、計算、分析、呈現方案,數據模型也有非常多的研究。大數據必須是規模異常龐大的數據,只有當規模龐大時候,才有新的研究價值。

前面已經提到,大數據的大,不是說一定要超過特定TB的數據集才是大數據。由于計算能力、存儲能力、分析能力的有限,現在看起來很簡單的問題,在歷史上可能都是大數據的問題。遼沈戰役中,司令員林彪對戰報要求很細,包括每支部隊殲敵多少、俘虜多少;繳獲的火炮、車輛多少;槍支、物資多少……一天深夜,值班參謀正讀著一份某師上報的戰斗繳獲報告,那是該師的下屬部隊偶然碰上的一個不大的遭遇戰,他們殲滅了一部分敵人,繳獲了一些戰利品,敵人余部逃走。林彪聽了匯報后,立即口授命令,全力追擊從胡家窩棚逃走的那股敵人,一定要把它徹底打掉。果然活捉了國民黨新編第六軍軍長廖耀湘。這些數據在今天看來,規模非常非常小。但在當時這已經是“大數據”了,林彪懂得分析數據,從繳獲中手槍和沖鋒槍的比例準確判斷出敵方的指揮部在胡家窩棚,這也算是大數據分析的魅力。

2.數據更新頻繁(Velocity)

我們知道摩爾定律揭示了處理器分析能力與時間的關系,也就是說,每隔18個月左右處理器的分析能力翻一番。對于一個靜止的數據集,哪怕今天我們的處理器無法處理,存儲器不好存儲。隨著技術的進步,未來可能變成非常容易處理,就像我們現在看著當年林彪分析戰報一樣,這些戰報數據的處理今天已經變得非常非常容易了,在今天已經不算“大數據”了。

大數據技術,要求我們更多地想出“巧妙”的分析辦法,提成更“優秀”的處理模型,而不能只依賴存儲能力、處理水平、網絡帶寬等硬件設備的性能改進。所以大數據技術,對分析對象要求是頻繁更新的數據集。

3.數據類型多樣(Variety)

傳統的關系型數據庫,無論從理論上,還是在應用上都非常成熟了。關系型數據庫一般保存格式固定、類型單一的數據,幾十年的數據庫理論、數據挖掘、數據倉庫的研究,已經有相當多的研究成果。

大數據要求我們的分析對象是異構、異質的數據集,可能包括文本、音頻、視頻等多種形式,也可能是結構化、半結構化的或無結構的。

4.數據價值巨大(Value)

如果數據沒有價值,我們就沒有分析的必要。因此,大數據要求我們處理的數據集是有巨大商業價值或社會價值的。阿里巴巴愿意花巨大代價提高推薦系統的準確性,就是在于其推薦系統的準確率的提高,能大大提高平臺的交易量,從而具有非常巨大的商業價值。我們在全國部署“天眼”系統,提高大數據技術在天眼系統的分量,就是因為天眼系統分析能力的一小步提升,都能在降低犯罪率、打擊犯罪、保障人民群眾安全、信用取證等方面都有巨大的社會價值。

在Value這個層面,我們除了要求價值巨大外,我們一般會增加一點要求,那就是價值密度極低。我們常說,大數據是一個“金礦”,金礦就包含兩個方面的含義:一方面,黃金很值錢,金礦很有價值;另一方面,金礦不是金庫,幾萬頓的礦砂,也許只有幾十公斤黃金,也就是說金庫的價值密度是非常低的。大數據的價值方面的含義,也要求價值密度非常低。如果數據集中每一條數據都是非常有價值的,那也就無所謂“挖掘”了,沒有挖掘,大數據的意義也蕩然無存了。

5.數據處理復雜(Complexity)

IDC公司的大數據只有4V的特征,我們一般偏向于增加另一個維度的要求:數據處理復雜。例如,統計中國人口的平均年齡,這個數據量是非常龐大的,有接近14億條記錄;這個數據也是動態更新的,每年都有幾千萬人出生,幾千萬死亡;這個數據集也可以是多樣的,湖南的數據可以放在mysql中,湖北的數據可以在oracle中,北京的數據可能在Txt文件中,上海的數據可能在Word文檔中;這個數據集和這個分析都是有價值的,但是平均到每一條數據,價值又非常有限。也就是說,這個問題是符合4V特征的,但是這個問題怎么看都“太簡單”了,年齡加起來求平均即可,不能成為真正意義上的“大數據問題”。

大數據要求數據處理復雜,不能腦袋一拍就可以想出辦法,不能套用現有的、成熟的數據庫工具簡單得到答案。

【其他定義】

除了上述主流的定義,還有人使用3S或者3I描述大數據的特征。

3S指的是:大小(Size)、速度(Speed)和結構(Structure)。

3I指的是:

(1)、定義不明確的(Ill-de.ned):多個主流的大數據定義都強調了數據規模需要超過傳統方法處理數據的規模,而隨著技術的進步,數據分析的效率不斷提高,符合大數據定義的數據規模也會相應不斷變大,因而并沒有一個明確的標準。

(2)、令人生畏的(InTImidaTIng):從管理大數據到使用正確的工具獲取它的價值,利用大數據的過程中充滿了各種挑戰。

(3)、即時的(Immediate):數據的價值會隨著時間快速衰減,因此為了保證大數據的可控性,需要縮短數據搜集到獲得數據洞察之間的時間,使得大數據成為真正的即時大數據,這意味著能盡快地分析數據對獲得競爭優勢至關重要。

大數據就是互聯網發展到現今階段的一種表象或特征而已,沒有必要神話它或對它保持敬畏之心,在以云計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。

關鍵詞: 大數據




AI人工智能網聲明:

凡資訊來源注明為其他媒體來源的信息,均為轉載自其他媒體,并不代表本網站贊同其觀點,也不代表本網站對其真實性負責。您若對該文章內容有任何疑問或質疑,請立即與網站(www.fennz.com)聯系,本網站將迅速給您回應并做處理。


聯系電話:021-31666777   新聞、技術文章投稿QQ:3267146135   投稿郵箱:syy@gongboshi.com

工博士人工智能網
商城
服務機器人
智能設備
協作機器人
智慧場景
AI資訊
人工智能
智能機器人
智慧城市
智慧農業
視頻
工業機器人
教育機器人
清潔機器人
迎賓機器人
資料下載
服務機器人
工博士方案
品牌匯
引導接待機器人
配送機器人
酒店服務機器人
教育教學機器人
產品/服務
服務機器人
工業機器人
機器人零部件
智能解決方案
掃描二維碼關注微信
?掃碼反饋

掃一掃,反饋當前頁面

咨詢反饋
掃碼關注

微信公眾號

返回頂部
主站蜘蛛池模板: 国产精品一区二区三区不卡 | 欧美精品中文字幕久久二区 | 高潮毛片 | 午夜性生活片 | 日韩免费激情电影 | 精品一区国产 | 色婷婷国产精品免费网站 | 国产精品99久久久久久www | 精品国产乱码久久久久久久软件 | 涩涩视频网站在线观看 | 亚洲成人一区 | 国产不卡视频在线观看 | 免费黄色在线网站 | 亚洲区一区二区 | 欧美成人精品一区二区 | 在线观看日韩精品 | 草久久久 | 亚洲综合久久久久 | 久久福利电影 | av在线免费网站 | 欧美一区二区三区啪啪 | 成人黄色毛片 | 欧美一级淫片丝袜脚交 | 国产视频在线免费观看 | 国产一区久久久 | 成人午夜又粗又硬又大 | www.国产一区 | 亚洲精品久久久久 | 国产精品久久久久久久久久尿 | 国产高清一区 | 国产乱码一区二区三区 | 亚洲精品国产精品久久99 | 亚洲一区二区在线免费观看 | 精品国产精品国产 | 久久这里都是精品 | 国产高清无密码一区二区三区 | 亚洲第一区国产精品 | 一级黄色毛片视频 | 黄色免费网站在线观看 | 精品99久久久久久 | 久久久综合亚洲91久久98 |