新班子教育政策 Fb網民在談什麼?

#輿情分析】近日蔡若蓮有機會出任教育局副局長的傳聞鬧得沸沸揚揚,會否影響市民對新班子的教育方面的觀感?


源大數據以大數據反析Facebook上針對新班子教育議題的輿情反應,發現最近7日的負面言論比例一直攀升,而討論焦點亦自7月6日開始轉向蔡若蓮。


相關連結:Facebook帖文

註:本文涉及情感分析僅以系統計算所得,並不反映支持度。


大數據要講質量【張Sir講數之三】

大數據的價值,可以體現在其可實時記錄、累積、可計算、可追蹤和可重複利用的特徵上,於是很多人就自然而然地對大數據形成了一個刻板印象:數據愈多愈好,數據量足夠大的話,就可以做結論。

數據是否愈多愈好呢?Google.org曾經推出過一個線上的流感預測平台 — Google流感疫情趨勢 (Google Flu Trend, GFT),其操作原理是使用經過匯總網民在Google搜索與流感相關的5,000萬個關鍵字,通過算法計算來預估流感疫情,並與美國疾病預防控制中心(Centers for Disease Control and Prevention,CDC)的已知流感發病率監測報告做對比。有學者研究發現,從2004年到2009年,GFT上的數據與CDC的數據驚人地一致;於是出現一些論調,認為利用算法便可以得出與CDC一致的預測結果,我們從此無需再尋找現象背後的原因,只需要知道兩者之間有統計相關性就可以。

垃圾信息過多 出現偽相關

後來,有學者發現,2013年的GFT預測數據兩倍於CDC的報告數據。從初期高度的一致,到後期出現的倍數誤差,學者認為很有可能是關鍵字中出現過多的垃圾信息所致,因為很多關鍵字看似與流感相關,但實際上却無甚關聯,也就是「僞相關」。例如,當中出現「美國高中籃球比賽」和「流感」相關搜索頻率和時間分布十分匹配,於是導致籃球擁躉容易被當作流感患者。或許基於此原因,GFT已經在2016年停止在網上發佈預測數據。

當前,在文本大數據領域利用關鍵字來進行數據搜集和分析,是最普遍的做法。例如很多輿情監測及品牌監測的圖表分析結果(常見的是詞雲圖)和報告,都是基於關鍵字來實現。張Sir根據多年來的實戰經驗,實在要作出呼籲,在使用「關鍵字」時,必須小心進行多番測試,盡可能建立一套嚴謹的數據清洗機制,以確保後續分析的工作,是基於高質量的數據集,而不是混雜了大量不相關的垃圾(噪音)數據

順便舉個例子。在特首選舉期間,張Sir也跟風與團隊一起,對網民在網上發表的候選人意見進行了系統性的數據收集、清洗及分析。過程中,在利用關鍵字時,我們採取「概念」的做法,例如把某候選人的名字視為一個概念,其涵蓋的關鍵字可包括綽號或「花名」。同時,亦要通過重覆檢測,排除其他有可能誤判為香港特首選舉及與某候選人相關的噪音,再在大數據挖掘平台上進行有監測性的清理,以確保最終用以分析的數據,具有高度的代表性及相關性。

還是那一句,大數據不是鬥「大」,數據質量才關鍵。

張榮顯 博士
亞太區互聯網研究聯盟主席、香港源大數據首席顧問
(原文載於經濟日報,獲准轉載)


特首立會答問 何時網民最活躍?

#輿情分析】常言道:發帖的時機在Lunch/放工,因為網民最活躍。然而源大數據以特首答問會作例,以大數據分析,發現午飯及放工時段網上討論並不特別多。


事件發生時輿論達至高峰,其後一直下滑,直至下午4時突然回升。


而負面聲浪長期高於正面,唯在上午9時、下午3時及午夜12時正面聲浪超前。


#難道大家喜歡下午茶論政?


相關連結:Facebook帖文

註:本文涉及情感分析僅為系統計算所得,並不反映支持度。


特首立會答問 哪裏才是輿論陣地?

【輿情分析】經過一日沉澱,網路上對特首答問會的情感反應出現變化,與答問會剛開始一小時比較,一日下來正面與中立情感明顯增加。


我們以機器分析昨日數據,發現新聞依然以正面情感佔多,而Facebook的中立及負面情感比例類近,共佔近半,而論壇的中立情感比例屬三大陣地中最少。


就是次答問會的聲量而言,新聞及Facebook合共佔去逾九成,而論壇名列第三,但僅佔約4%。論壇當中,以香港討論區居首,佔七成聲量,大幅拋離第二名香港連登LIHKG。


相關連結:Facebook帖文

註:本文章涉及情感分析僅以系統計算所得,並不反映支持度。


林鄭出席立會答問 輿論最關心什麼?

【輿情分析】昨日特首林鄭月娥出席立會答問大會,答問會結束後翌日,源大數據選取較為熱門的四大議題,再以機器分析,看公眾對之的熱議程度。


四大議題在各大輿論陣地的排名相當類近,然而新聞及論壇明顯對教育較感興趣,而在Facebook上,一地兩檢與教育的熱議程度旗鼓相當。


相關連結:Facebook帖文


【輿情速報】特首出席立會答問 輿情反應如何?

新任行政長官林鄭月娥現正出席立會答問大會, 源大數據即時做輿情分析, 發現新聞與Facebook最快開始討論, 成為主要輿論陣地。然而討論剛開始時, 兩者反應甚為不同, 新聞多措詞正面, Facebook上則以負面措詞為主。

相關連結:Facebook帖文

註:本文涉及情感分析為系統計算所得,並不反映支持度。


大數據要講身段【張Sir講數之二】

「大數據」(Big data)一詞在Google Trend的搜尋榜上,過去幾年一直處於人氣飆升的狀態,毫無疑問它是信息時代描述數據以指數級增長的流行術語。據估計,從2010年開始,每年全球所產生的數據量,超過之前人類史上所有數據的總和。也是因為大數據的熱度和巨量,一方面讓人趨之若鶩,另一方面讓人望而卻步。

上期張Sir簡單講過大數據的四個V(Volume, Variety, Velocity, Veracity),其實也是為了附和目前流行的講法而已,否則就連「講數」的資格都被挑戰。有些人認為要同時具備以上4個V才算大數據,有些人則認為只要在處理大量或繁雜的數據分析就是搞大數據,甚至有些人把商業BI改個版面,弄幾個花俏的統計圖表也是在賣大數據。張Sir喜歡用「數據」一詞,但為了隨波逐流及找不到更好的其他詞語可替代,只好繼續作「大」。

張Sir認為,對大數據迷戀也好,抗拒也好,重點要搞清楚什麼樣的數據,在什麼情況下能體現其價值(Value)。

數字、文字或圖片 分分秒秒累積

我們經常聽到的是某某在講大數據如何做到精準計算消費者的喜好,及由此進行精準營銷及CRM(客戶關係),此大數據多數指的是可以用數字來描述的行為或交易資料,例如某消費者在某個購物平台上在某個時間(例如晚上9點),搜索了某個商品多少次(例如3次),最後購買了該商品(5件)及做了網上支付(共銀777元)。

又如打車軟件,從乘客利用APP搜索車輛開始,到司機接單,最後乘客成功抵達目的地,而司機亦得到一筆交易,過程中產生的數據至少包括乘客的身份、下單時間、司機及車輛資料、地理位置、路線、車費等等。這些數據中,有些是歷史資料,有些是實時記錄,當中絕大部分都是以數字形式存在的數據。

再如,上述的兩個場景中,如加插交易成功後,消費者/乘客及電商商戶/司機會互相評分和評價,例如給一個好評圖標、5分或幾句評語,這些數據就不是單純的數字,而同時會產生大量的文字或圖片形式的數據。

從上面三個例子中,我們可以看出,大數據是有身段的,有數字,也有文字或圖片,甚至可以是串流式的聲音或影像,它們都有一個共通點:可以實時記錄、累積、可計算、可追蹤和可重複利用,這也是大數據的價值所在。

張榮顯 博士
亞太區互聯網研究聯盟主席、香港源大數據首席顧問

(原文載於經濟日報,獲准轉載)


How to Start with Big Data Mining?

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it. 

People think big data as the petroleum of the future: you rule if you control it. Yet like petroleum, data has to be carefully extracted and managed, which is the real question. 

Besides the traditional saying of 4V: Volume, Variety, Velocity and Veracity, we have to look into the 5th V: Value, which is the even more determining factor of your analytics…

>> Read Full Article in Chinese


大數據要講價值【張Sir講數之一】

香港江湖電影的情節中,常常出現講數的場面,大佬對大佬,氣定神閒的模樣,而各自身邊圍著的一班「靚」,則擺出劍拔弩張的姿勢。講數的結果,不是「擁抱」,就是「互片」。新開這個專欄,由張Sir來講數,既不「擁抱」,也不「互片」,本着正本清源的態度,分享對時下的熱詞——大數據(Big data)及其相關事物的看法。

張Sir關注及實踐大數據應用多年,近年頻頻出席研討會及社交場合,既有自己講,也有聽人講,似乎大家都在講,但不是人人都能講出其所以然。美國杜克大學的教授Dan Ariely這樣形容此現象:大數據就像青少年講性愛——人人都在講,但沒有人真正知道如何做;人人都以為其他人正在做,於是大家都宣稱自己也在做。

擁有很易 提煉很難

有人說大數據是未來的石油,也有人說大數據是企業的資產。若真的如此,那麼,全世界應該沒有窮國或負資產的公司。石油需要提煉,資產需要保值。如何提煉和保值,則是處理大數據的大問題。我們目前所知的大數據,只是巨大冰山露出水面的一小角而已。

正如教科書式的說法,大數據有四個V,即是量大(volume)、多樣(variety)、夠快(velocity)及是否夠真(veracity)。還有更簡單的說法是:傳統的單機電腦處理不了的數據。那麼,具有這些特徵的數據存在哪裡呢?諸如智慧城市、物聯網、智能交通、智慧醫療、電子商務、網上支付、精準廣告、社交媒體等等,皆可產生符合上述特徵的海量數據,但是,我們是否可以說大數據就是石油或資產呢?

舉個簡單的例子,目前商界和政界都流行使用一些社交媒體數據來監測及分析網民對一個品牌、產品、服務或社會議題的看法,於是利用所謂的analytics來將這些以文字、圖片或短片所表達的看法做篩選、趨勢描述、分類及正負面評價的分析,並將結果用炫麗的可視化圖表來呈現。這個過程無疑仿如在提煉石油,然而,如果拿來提煉的原油本身質量不佳、所用的提煉工具比較殘舊並容易被滲入雜質,最後生產出來的會是可用的石油嗎?顯然,答案是否定的。因此,真正能發揮出大數據作用的,是能否用正確的工具來收集和梳理出有用的數據,以及能否從中挖掘出其真正的「價值」,也就是張Sir提倡大數據的另一個V——Value。

張榮顯 博士
亞太區互聯網研究聯盟主席、香港源大數據首席顧問

(原文載於經濟日報,獲准轉載)


Don’t Waste Your Time Waiting: Ways Smart City Can Help

Living in the hustle and bustle city, waiting is a sin to efficiency. Yet people spend much of their time waiting in transport, restaurants, clinics, banks, etc. 

To improve the living quality, limiting the waiting time is essential. Hong Kong has strong digital infrastructure including network coverage with high speed, which can be a great weapon in developing smart city. Here is how…

>>Read Full Article in Chinese