Q:什么叫數據?
好多年前,我們認為數字才叫數據。什么叫數字?至少支持一種代數運算的才叫數字。到現在我們的概念全變了。可能每一個人對數據的定義都非常不一樣,有人會說數據是信息,我覺得太抽象了。直白地說,什么是數據——凡是可以記錄的都是數據。但是記錄不下來的,這個時刻不是數據,也許未來是。以前聲音不是數據,現在聲音也是數據,圖像是數據,中文文本也是數據。目前移動互聯網時代我簡單的把數據歸類為文本,位置和網絡結構三種。
Q:網絡結構給我們數據分析帶來了什么樣的機會和挑戰?
以前我們對人的分析基于個體。比如說營銷中,為了理解消費者,我們會做市場細分,消費者是非常個性化的,千人千面。這時候怎么分析呢?張三的性別,年齡,過去買多少產品,全是他一個人的信息。現在在任何一個電子商務網站上都能看見推薦,推薦做的最成功的是亞馬遜,它會根據你過去的購買行為進行推薦。買了A這本書的人會不會買B這本書。看你過去買什么,再推送你將來會買的商品。
我跟大家講一個真實的故事,我認識的一個博士后,畢業之后面對消費者做小微信貸。小微信貸是,比如我到蘇寧電器看產品,很喜歡,但是發現差兩千塊錢,售貨員就說說分期付款找小微信貸。然后我就跟做小微信貸的人說我要借兩千塊錢,但是什么都不想押,填張表就給我兩千。他們會根據我的職業教育和其他各種信息,對我的還款能力做評分,20分鐘決定給不給錢。這個風險是無比巨大的,這么大的風險大部分銀行都不愿意做,但是民營企業愿意做。這個事特別的好玩,很多年前我們叫高利貸,現在叫金融創新。小微信貸要評估的是他的支付能力,支付能力填表很容易做假,如果有微博帳號,知道他去哪里,就知道他的真假了。所以位置數據也很重要。
Q:在網絡上如何獲取個人信息?
在網絡上,我們會通過人的標簽增加對人的認識。或者有一個渠道,通過朋友的信息,知道哪些是正確的,哪些是錯誤的。這里我們可以把它變成非常有意義的統計圈,讓用戶愉悅體驗的產品。數學模型上可以簡化成什么樣的結構?我定義我自己叫I,我關注的統計之都是Z,標識我關注統計之都,統計之都也關注我,這樣就可以進行分析了。我們把標簽存儲下來,這就是分析的結果。有人說在互聯網上,你只要在電腦屏幕前面,互聯網另外一端不知道你是誰。現在全變了,你在這里,后面還有人看著你,你的一切他都知道。
再比如微博頁面,原來推薦的廣告是電子游戲。后來淘寶購買了微博18%的股份,很快就發生了一個變化,你在淘寶搜過什么東西,在微博就看到什么廣告,這是單向的,還沒有出現微博討論什么,淘寶就有什么。
Q:位置數據為什么很重要?
在互聯網上第一批通過數據分析獲得商業價值的都是電商。電商要求搜索購買交易行為全部在線上完成,典型的是3C產品、書等各種各樣的商品。電商只是一部分行業,但還有很多服務行業是不能線上消費的,線上購買也很難。比如說培訓,培訓可以在網上購買,一般的就兩萬塊錢,但是更多的人覺得,我們家孩子上英語班,還是先看看老師長什么樣子,不能交了錢,人都不知道是誰。其他還有餐館、酒店、旅游等,所有這些行業都有一個特點,需要完成線上行為和線下行為的打通。在線上了解一家培訓機構的資質,線下再去接觸;線上通過團購網站尋找一款美食,線下餐廳去完成消費。這個過程當中,位置信息就變得非常的重要。
Q:知道地理位置以后做什么呢?
現在我給大家介紹一個我們做過的案例。我們想知道來頤和園玩的游客,他們都來自于哪里,他們在北京去什么地方,他們如何消費等等。
因為頤和園和圓明園的門票不貴,可能在這里玩完去CBD去住。但是不同區的領導是有競爭的,領導是希望你吃、玩、住都在我這個區的,這時候就需要采集游客的位置信息了。但是我無法采集到所有人的數據,線下在圓明園讓游客做一千份問卷也不太容易,所以我們就用微博簽到的數據,雖然這不是所有用戶的數據。通過研究數據發現,首先到北京來的外地游客,在海淀區游玩的大部分在圓明園和頤和園轉。我們能看到來頤和園、圓明園玩過的游客逛過的各個地方的最重要的旅游景點。海淀區有頤和園、圓明園、北京大學,朝陽區有鳥巢、國家體育館、奧林匹克公園等等,東城區有王府井小街、南鑼古巷和簋街。但是海淀就沒有這些出名的商業街和小吃街了。所以這些來海淀區去頤和園、圓明園玩的人,他們吃飯都到東城區了。雖然這些人購物也發生在海淀區,但是東城區依然是強有力的競爭對手。
我們得到的位置信息可以精確到一個樓。所以如果你用心去做,就能通過簡單的位置軌跡看到這個人的吃穿住行——是從機場來的,還是高速公路上的收費站來的,還是從火車站來的?是在什么樣級別的餐廳吃飯?你只要得到餐廳的名字,就能推出他的消費能力。通過他住宿的酒店也可以看到住宿的經濟能力。通過這個可以知道一個人的吃穿住行。
舉個例子:如果我是國航的銷售,一個客戶今年在我這兒訂過一張機票,現在的問題是要確定他是不是高端用戶,如果是高端用戶我應該想辦法把他拉進來。但是我只看到他在我這里買一張機票,所以無法確定。這時候如果可以得到他的位置信息,比如他每周都在每個機場轉一下,我就能知道他買了不少機票,但是機票都跑別家去了。將文本、網絡結構和地理位置這三種數據整合在一起,我們就可以分析出很多有價值的東西。但是無論是國內還是國外我們的分析手段還是遠遠滯后的,滯后的不是技術方法,更多的是對商業的理解。什么樣的數據支持我們什么樣的商業模式,或者對現存的商業模式有什么改變。
Q:怎樣把管理和實踐的問題歸結成數據問題,然后把問題解決掉?
第一階段首先是數據的生產、采集、整理。第二,有了數據以后,就要定義和數據相關的業務問題。比如車聯網,我要定義業務問題,是具有什么駕駛習慣的人容易出事;喜歡逛什么地點的人支付意愿高。這也是業務問題,定義出來才能分析。第三是數據挖掘與統計建模。最后是數據業務的實施。當你有了業務分析結果的時候,你不可能通過統計學語言來表達,你要會表達故事,表達成人們可以懂的語言,比如營銷策略和圖表。這4個里面相對比較容易的是統計建模。最難的則是第二個,因為無章可學,沒有任何一個老師和教科書可以回答你。只能跟最優秀的人在一起,跟他們一起探討,互相學習。我特別享受的是,在我的課上每到一個學期結束的時候,聽同學們匯報案例,我們都互相非常欣賞。有人是做醫藥行業的,有人自己創業,不一定每個人都給出最完美的答案,但是都能體會你的痛苦。對無法完美解決的問題,只要有更多優秀的人在一起,我們一起研究思考,就可以把它歸結出來,找到最好的解決辦法。