“大數據”一詞時下的熱門程度無需贅言,這一兩年來互聯網相關的任何活動、會議必不可少“大數據”板塊。剛剛結束的第13屆“中國互聯網大會”也專設了大數據論壇。
對于任何一個大數據的從業者或初接觸者,或許都會有個共同的感觸:大數據很有用!大數據該怎么用?
關于大數據的著作和文章鋪天蓋地,似乎也共同在傳遞一個信息:越來越多的行業、人士開始關注并實際探索大數據的應用,我們正在一起描繪著大數據巨大效用的藍圖,但在實踐的路上,我們都還在起步階段小步前行。
大數據根基于互聯網,數據倉庫、數據挖掘、云計算等互聯網技術的發展為大數據的應用奠定了基礎。然而實踐應用尚處于在探索中前進。同樣作為探索學習,我想從我個人的理解角度,分享并與大家探討四個問題:大數據是什么?大數據可以做什么?大數據實際做了什么?大數據要怎么做?
首先,大數據是什么?
引用3個比較常用的大數據定義:
(1)需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
——Gartner
(2)海量的數據規模(Volume)、快速的數據流轉和動態的數據體系(Velocity)、多樣的數據類型(Variety)、巨大的數據價值(Value)。
—— IDC
(3)或稱巨量數據、海量數據、大資料,指所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息。
—— Wiki
其他關于大數據的定義也大抵類似,我們可以用幾個關鍵詞對大數據做一個界定。
首先,“規模大”,這種規模可以從兩個維度來衡量,一是從時間序列累積大量的數據,二是在深度上更加細化的數據。
其次,“多樣化”,可以是不同的數據格式,如文字、圖片、視頻等,可以是不同的數據類別,如人口數據,經濟數據等,還可以有不同的數據來源,如互聯網、傳感器等。
第三,“動態化”。數據是不停地變化的,可以隨著時間快速增加大量數據,也可以是在空間上不斷移動變化的數據。
這三個關鍵詞對大數據從形象上做了界定。
但還需要一個關鍵能力,就是“處理速度快”。如果這么大規模、多樣化又動態變化的數據有了,但需要很長的時間去處理分析,那不叫大數據。從另一個角度,要實現這些數據快速處理,靠人工肯定是沒辦法實現的,因此,需要借助于機器實現。
最終,我們借助機器,通過對這些數據進行快速的處理分析,獲取想要的信息或者應用的整套體系,才能稱為大數據。
我們可以用下面的圖示給大數據定義:
對大數據概念有了界定后,那大數據可以做什么呢?
想要應用大數據,從流程上來說,大概是這樣。
首先我們要有數據源,然后對數據進行收集和存儲,在這基礎上,再進行分析和應用,形成我們的產品和服務,而產品和服務也會產生新的數據,這些新數據會循環進入我們的流程中。
當這整個循環體系成為一個智能化的體系,通過機器可以實現自動化,那也許就會成為一種新的模式,不管是商業的,或者是其他。
然后具體到實際的應用中,我認為,大數據能夠實現的應用,可以概括為兩個方向,一是精準化定制,二是預測。
首先,精準化定制。
主要是針對供需兩方的,獲取需方的個性化需求,幫助供方定準定位目標,然后依據需求提供產品,最終實現供需雙方的最佳匹配。