「大數據」(Big data)一詞在Google Trend的搜尋榜上,過去幾年一直處於人氣飆升的狀態,毫無疑問它是信息時代描述數據以指數級增長的流行術語。據估計,從2010年開始,每年全球所產生的數據量,超過之前人類史上所有數據的總和。也是因為大數據的熱度和巨量,一方面讓人趨之若鶩,另一方面讓人望而卻步。

上期張Sir簡單講過大數據的四個V(Volume, Variety, Velocity, Veracity),其實也是為了附和目前流行的講法而已,否則就連「講數」的資格都被挑戰。有些人認為要同時具備以上4個V才算大數據,有些人則認為只要在處理大量或繁雜的數據分析就是搞大數據,甚至有些人把商業BI改個版面,弄幾個花俏的統計圖表也是在賣大數據。張Sir喜歡用「數據」一詞,但為了隨波逐流及找不到更好的其他詞語可替代,只好繼續作「大」。

張Sir認為,對大數據迷戀也好,抗拒也好,重點要搞清楚什麼樣的數據,在什麼情況下能體現其價值(Value)。

數字、文字或圖片 分分秒秒累積

我們經常聽到的是某某在講大數據如何做到精準計算消費者的喜好,及由此進行精準營銷及CRM(客戶關係),此大數據多數指的是可以用數字來描述的行為或交易資料,例如某消費者在某個購物平台上在某個時間(例如晚上9點),搜索了某個商品多少次(例如3次),最後購買了該商品(5件)及做了網上支付(共銀777元)。

又如打車軟件,從乘客利用APP搜索車輛開始,到司機接單,最後乘客成功抵達目的地,而司機亦得到一筆交易,過程中產生的數據至少包括乘客的身份、下單時間、司機及車輛資料、地理位置、路線、車費等等。這些數據中,有些是歷史資料,有些是實時記錄,當中絕大部分都是以數字形式存在的數據。

再如,上述的兩個場景中,如加插交易成功後,消費者/乘客及電商商戶/司機會互相評分和評價,例如給一個好評圖標、5分或幾句評語,這些數據就不是單純的數字,而同時會產生大量的文字或圖片形式的數據。

從上面三個例子中,我們可以看出,大數據是有身段的,有數字,也有文字或圖片,甚至可以是串流式的聲音或影像,它們都有一個共通點:可以實時記錄、累積、可計算、可追蹤和可重複利用,這也是大數據的價值所在。

張榮顯 博士
亞太區互聯網研究聯盟主席、香港源大數據首席顧問

(原文載於經濟日報,獲准轉載)