2012年7月14日 星期六

大數據到底會是誰的機會?


2011年開始,英文IT界開始時不時的蹦出“Big Data”這一詞彙;到了2012年,大資料成為了一發不可收拾的一個行業熱門概念,仿佛出口不提大資料,都不好意思說自己是搞IT的。整個網路的資料積累速度之快,對於從上個世紀成長起來的人們而言實在是非常震驚。接下來的問題就是,究竟誰會對這些資料感興趣?









“大資料是機會,但只是少數人的機會,更多是巨頭們的商業障眼法,比如 IBM Oracle、微軟,他們提倡甚至誇大大資料的目的還是為了向你兜售他們的工具,兜售他們的解決方案,確切的說,從你身上賺錢。更有甚者,居然是向你兜售硬體,這不完全是扯淡麼? 大硬體還差不多。”



—— fenng @ dbanotes



2011年開始,英文IT界開始時不時的蹦出“Big Data”這一詞彙;到了2012年,大資料成為了一發不可收拾的一個行業熱門概念,仿佛出口不提大資料,都不好意思說自己是搞IT的。



究竟“大資料”和“資料”之間有啥區別,業界公認的定義分三方面:資料量(Volume)、處理速度(Velocity)以及資料種類(Variety)。不過說實在的,之前筆者跟IT界同行聊天時提到大資料,說這種量級的資料很久以前不就有了嘛,只不過是在研究所、氣象局、金融中心、醫藥中心之類的地方,跑在昂貴的大型機和超級電腦上面,而現在則跑到了一批互聯網公司們的廉價x86伺服器集群上而已。從這個角度而言,大資料帶來的變革有點類似於二十多年前的PC革命(其實更像是30多年前的小型機革命),並非前沿創新,而是從前沿到普及的過渡。



普及的範圍有哪些?以下是維琪百科上列出的一些例子:



網站日誌,RFID,感應器網路,社交網路和社交資料,互聯網上的文本和文檔,互聯網搜索索引,通話記錄,天文,氣象科學,基因學,生物化學、生物以及其他複雜的跨領域學科,軍隊,醫療,影像檔案,視頻檔案,大型電子商務。



下面還給了一些具體的數字:



斯隆數位化巡天專案(SDSS),起始於2000年,啟動後1周內收集的資料量超過了天文學歷史上資料量的總和。其目前的收集速率在每晚200GB,總量超過140TB。而SDSS的後繼者一旦啟動,又能夠在5天的時間內收集SDSS總量的這個量級。

大型粒子對撞機(LHC)的四個感應器在2010年內製造了13PB的資料。

沃爾瑪平均每小時處理一百萬個使用者交易,相應的資料庫量級已經超過2.5PB

Facebook的資料庫裡儲存了超過400億張照片。(平均4張照片1MB,總量100PB。來源)

這個對比很有意思:沃爾瑪的資料比SDSS高一個量級,LHC的資料比沃爾瑪的資料量高一個量級,而Facebook的資料則比LHC還高一個量級!



筆者在2005年左右的時候看到過一張圖,因為很喜愛其中的含義,所以用在了自己的簽名上:




but 前兩天忽然發現,這張圖裡的Internet23,993,564,998 MB的資料代表,換算過來只不過23PB,還不到一個Facebook的資料量!整個網路的資料積累速度之快,對於從上個世紀成長起來的人們而言實在是非常震驚。



接下來的問題就是,究竟誰會對這些資料感興趣?



廣告主



“我的廣告費有一半被浪費了,但問題是我不知道是哪一半。”



—— 現代廣告業之父 John Wanamaker



廣告、市場行銷涉及的範圍很廣,底層平臺有網路媒體、社交網路、紙媒、電視、公交站旁的牌子、電梯口牆上的螢幕、學校食堂的桌子等等;中間層有廣告投放系統、資料分析服務、做報告的;轉化層有電子商務和實體店。



“今天我們放一個路牌廣告,我可以告訴你西單路口一天兩千萬人可以看得到,這個資料是什麼呢?真的是有一個人站在那去數這個事情嗎?其實都不是。”



筆者前日拜訪國雙科技,其高級副總裁續揚先生這樣描述起廣告行業的萬年問題——被浪費掉的一半。接下來,續揚先生開始感歎互聯網帶來的變革:



“互聯網的出現,使線上的資料全部被採集成為了可能。”



也就是說,要瞭解用戶的互聯網行為,調查問卷、採樣這些手段已經不需要,所有的資料在技術上都可以通過流覽器等終端自動收集,然後分析出來的結論,不再是針對某一個樣本,而是完整的目標群體。這就是“全數據”。



這意味著什麼?廣告主不再需要依賴基於某個隨機的樣本群做出的使用者報告進行決策了,他們可以拿到所有搜索過、查看過、購買過自己產品的使用者們的互聯網行為資料!而且資料收集合理完整的情況下,他們完全有可能計算出來自己每一分廣告投入帶來的回報。



為什麼會這樣說?筆者拜訪國雙科技當天,看到許雲先生做的一次產品演示,其中有一點令人印象深刻:



一條時間線。



簡單來說,這條時間線是一個用戶訪問某化妝品品牌官網的一個歷史記錄。包含的資訊很簡單:一個來訪時間,進入網站的來源,使用的流覽器,以及是否進行了購買。用戶的識別一般是通過cookie的手段和註冊用戶的機制實現,不過許雲先生表示現在也有其他的技術手段;而且隨著使用者的資料越來越多的分享給互聯網服務商,辨認使用者的手段還會越來越多,越來越精准。



在許雲先生展示的時間線當中,用戶在不同的時間段訪問了這家網站,並且在第四次訪問的時候進行了購買。其中可以發現一些細節:



1、用戶的第一次來訪是從微博(e.weibo.com)進入的



2、過了一個星期,用戶有意識的通過搜索又進來一次



3、用戶第三次還是通過搜索,這次訪問已經確定了購買意向,然而



4、最後購買之前,用戶換了一次流覽器(Chrome->IE



所以,如果你是該企業市場部那位決定在微博平臺投放廣告的決策人,或者是負責企業微博運營的市場人員,那麼通過這樣一個歷史記錄,這個廣告的效果跟最終成交的這筆單子就有了直接的聯繫。當然,影響用戶最終購買的因素有很多,第一次曝光可能只是起到一個通知用戶的作用,但至少這能夠讓人有一個概念:企業微博做了是有效果的。具體算市場人員績效的時候,也好看個清楚。



就國雙科技而言,提供資料收集和展示的工具只是第一步;如果客戶需要,他們可以生成一份有針對性的報告,並進一步提出廣告投放或改版的建議。最重要的是,這些資料都是即時的——這在上世紀末可是金融界才能享受到的待遇!而且,這樣一家公司的客戶如果能夠覆蓋到一個行業的幾個巨頭企業,比如化妝品業的幾個跨國企業,那麼國雙科技這樣一家200多人的小企業,也完全有可能掌握整個化妝品行業在中國區的大部分網路廣告資料。如果要做一個行業報告出來,那麼國雙科技手上掌握的有關國內廣告市場的資料,有可能連GartnerIDC這樣的傳統的權威報告發佈方手上都沒有。這在以前是不可想像的。



這就是大資料時代的機會之一。而這其中的關鍵點之一,就在於你在這個行業收集的資料是否有專業性。筆者跟續揚先生聊天的時候談到有的企業可能不願意把這種資料的工作交給協力廠商的企業來做,比如處於資訊安全的考慮等等。對此,續揚先生是這樣回復的:



“大家越來越意識到尊重專業性,就是說,與其他做,他不一定有我做得專業、專注。中國人有一個特點,什麼都想自己幹,但是有的時候有一些非常尊重專業性的話,他就去用你這些資料。”



事實上,對資料上的這種專業性的尊重,在北美、歐洲等市場早已成為常識。對於小企業而言,可能只需要找到一個合適的模式執行下去就好;但是對於上了一定規模的企業,需要決定要做哪些事情,將多少資源投入到這些事情上,都需要準確的資料進行判斷,以避免資源的無謂耗損。好的資料提取出來的結論如果能夠幫助他們減少哪怕1%的損耗,那也是非常有價值的。



對於廣告行業而言,互聯網全數據索引只是一個起步。隨著網路的觸角從智慧手機往人們的身邊發展的同時,資料收集的範圍也在迅速的擴大至現實的世界當中。比如今年開始出現在很多電梯間門口的刷q卡的機子。計程車後座上的觸屏設備。公交站旁邊的看板、大學食堂的桌子,以後也很可能會能夠與我們進行互動。這種資料的廣泛性、散落性、多樣性和即時性,很可能會帶來更多的機會,對整個廣告行業造成巨大的變革。



您對於這樣的變革有何看法?


沒有留言:

張貼留言