去年美國總統大選後,網絡上突然湧現不少文章,關於特朗普陣營如何利用大數據去分析選民的社交行為、性格特徵和心理測試,並且通過精準定位及個性化宣傳等手法,從而幫助特朗普取得最後勝利。同時,關於傳統民調在預測希拉莉贏得選舉方面,則處處失靈,備受質疑之聲不絕,甚至出現「民調已死」的論調。

事後回顧,利用大數據來分析網民在社交網絡上的使用行爲軌迹和情緒方面,確實發揮了作用,特朗普的競選策略可以根據網民的反應做出快速靈活的調整,然而,大數據究竟在心理測試及與選民個人資料進行對接方面,是否真的如傳聞般如此簡單化?對於特朗普贏得選舉的效果有多大?負責提供大數據技術的公司也說不出其所以然。

至於傳統民調的失靈,也有不少事後諸葛亮的分析。其中,美國著名的研究機構皮尤中心有三點解釋:民調樣本的偏差,也就是說,有一部分人群沒有得到民調的覆蓋。例如,教育水平、收入和政治熱心度較低的人,透過電話接受民調的可能性會較低。當出現民調無法覆蓋的選民踴躍投票的情況,那麼民調結果的準確性就會受到影響。其次是基於當時的政治氣氛,很多支持特朗普的選民沒有向民意調查機構坦誠回答他們支持誰。其三,在接受民調時有表示去投票,但實際上沒有去投票的受訪者,也會影響預測模型的準確性。

雖然傳統民調確實會出現如皮尤中心解釋的情况,但民調在歷次選舉中,預測準確的比率還是佔多數。事實上,如果從希拉莉最後的普選得票率來看,比特朗普多出2.1個百分點(48.1%比46%),而當時全國民調的平均值也顯示希拉莉的得票率領先3%左右。由此可見,“民調已死”的論調未必成立。

線上大數據 線下小數據

張Sir翻炒上面的例子,目的是指出,當下很多人一談大數據,要麼是瘋狂迷信之,對傳統的小數據(這裡特指民調數據)一律採取嗤之以鼻的態度;要麼是對大數據的作用和影響,不以為然。張Sir在本欄講了幾期大數據,當然是肯定其對商業、社會及政府所起到的作用會越來越大,同時,如果能結合小數據的話,則必然起到乘法效應。剛才提及特朗普僱用的數據公司,在分析選民的特徵時,其實也應用了大量的個人數據,例如土地登記和汽車數據、購物數據、俱樂部會員資格、訂閱的雜誌、人們所去的教堂等,當中有的是記錄式的數據,有的是通過民調方式獲取的數據。
 
那麼,小數據是什麼呢?學術上或業界對此其實沒有一個公認的標準定義。在數據分析師眼裡,消費者個人在線下場景的消費習慣行為數據就是小數據;對市場研究人員來說,通過問卷調查或個體訪談獲取的數據,便視之為小數據。因此,小數據是相對於大數據而言的數據,是在實地場景中,通過主動與消費者接觸而直接收集回來的數據,例如人口特徵,性別、年齡、購買動機、個人的興趣、滿意度、忠誠度、價值觀及品牌感知態度等等。張Sir上期提及的OTAs大數據,可以監測酒店業的總體及個別的酒店聲譽價值,挖掘出顧客對酒店服務或設施的評價,以及瞭解顧客的評價和喜好。這些大數據可提供給酒店的「是什麼」,若結合問卷調查的小數據的話,則可以探索「為什麼」,以及做出更多的態度和體驗方面的多維度的分析。

在數據時代,大小數據的結合,將讓企業更全面地瞭解顧客、認識自己。

張榮顯 博士
亞太區互聯網研究聯盟主席、香港源大數據首席顧問
(原文載於經濟日報,獲准轉載)