源大數據挖掘工作坊 與中大學者激辯連場

源大數據團隊今日到中文大學新傳學院C-Center出席數據挖掘工作坊,由我們的首席顧問張榮顯博士負責主講。

席間張Sir特別指出大數據處理的誤區,尤其談到坊間看重的自動化情感分析,情緒正負値不應解讀為民意支持度;張Sir亦主張單靠機器分析不足以帶來洞見,須以人類智慧判斷為主、機器為輔助,加上反復清洗數據,才能挖掘出有意義及價値的深度分析,正確決策。這些觀點都獲得在場學者認同。

會上大家探討學術界可如何應用大數據研究民意輿情,以及結合傳統學術邏輯思維,處理社交網絡世代上的海量輿情數據。談到抽樣編碼及機器學習,現場立時燃起熱烈討論,教授學者展開激辯,就如何改善抽樣方式提出寶貴意見,以期提高精準度。再次感謝院校邀請,我們亦獲益匪淺,滿載而歸。


香港建造智慧城市 媒體及網民想點?

近日香港由於「創科博覽2017」的舉行,坊間又再牽起「智慧城市」的話題。行政長官林鄭月娥在出席該博覽開幕禮致詞時表示,為發展創新科技業,政府將在8個方面加大力度,包括:增加研發的資源、滙聚科研人才、提供創投資金、建造科研基礎設施、展示現存的法例法規、開放政府擁有的數據、帶頭改變政府採購制度,以及加強學校的科學教育。

其中,政府挑選幾個創科領域重點發展,包括生物醫藥科技、智慧城市及機械人技術等去發展。港府這些願景和舉措,對於將香港打造成為「以人為本」的智慧城市,實在是利好消息,筆者樂觀其成。

然而,正如筆者在本欄上期所強調的,智慧城市的發展需要經歷四個階段:電子化(數碼化)、網絡化、智能化、智慧化。在一個宏大的藍圖底下,需要需求、體驗及參與三大要素的同步進行,互相配合,才能穩步向前,實現智慧之城的有效落地。

根據源大數據最近的一份網絡數據研究報告顯示,港府在今年1月18日的2017《施政報告》中提出建造智慧城市的規劃,並且在8月和9月進行公眾諮詢。

從今年6月中到8月中兩個月時間內,從新聞媒體(包括傳統紙媒及網絡媒體)及社交平台上收集到950條數據顯示,來自Facebook的網民聲量有650條,佔比68.4%,新聞報道有212篇,佔比22.3%,其餘不到一成的來自論壇、微信及Youtube。

7月上旬港府公布了智慧城市藍圖顧問研究報告後,網絡聲量此起彼伏,引起一番報道和討論,然後在8月中上旬網民開始關注到內地在該領域的發展,並與身處的香港環境進行對比評論較多。

該報告利用機器學習進行的情感分析結果顯示,新聞媒體基本上對香港發展智慧城市抱着中立(53.6%)及正面(42%)的態度,而在網絡民意(社交平台)方面,明顯多了不少負面(18.2%)的聲音。

在利用自動化及人工校正方式對所有報道及網民意見進行歸類後發現,對香港建造智慧城市發展持正面的意見中,新聞及網絡民意主要關注智慧城市對於香港科技發展方面帶來的好處,例如促進創新科技發展和普及應用(67.4%)及幫助香港發展經濟(17.9%)。

在持負面的意見中,主要認為目前缺乏整體發展方向(33.3%)和憂慮個人資料及私隱受到侵犯(26.7%),還有質疑將會有利益輸送的情況發生(20%)。

另外,對於智慧城市的建議,主要聚焦於智慧城市建造的過程中,如何運用創新科技及分享數據(23.2%)、讓更多科技人員參與其中(18.8%)和更新現有法例(17.4%)。

以上數據,未必能代表全港市民的意見,但至少反映了新聞媒體及部分對此事關注的網民的取向。未來港府在推動智慧城市發展及實施過程中,總是有着來自「市民」的聲音。

需求、體驗及參與三要素,在網民的智慧中已經體現了出來。

張榮顯博士
亞太區互聯網研究聯盟主席及香港源大數據科技有限公司首席數據顧問

(原文載於信報)


一地兩檢議題 九月尾聚焦一國兩制

#輿情分析】一地兩檢似乎沉寂一時,近日網民又在談什麼?仔細一看,原來焦點話題由計算「廣州車程」的實際長短,已漸漸轉向「福田口岸」及「一國兩制」。

自七月公布方案後,議題的熱度每月下跌。及至九月中,熱度稍為回升,而當中網民對「一國兩制」的討論最為熱烈,近日公民黨以短片倡議「福田口岸」方案,亦令話題亦重回桌面。

以單一帖文的平均熱度值計算,泛民陣營中,「福田口岸」的帖文獲得最多回響;在建制陣營中,則以「一國兩制」回響最大。

九月至今的三大熱帖都集中於9月15日,頭條新聞以短片諷制一地兩檢成為榜首,而MTR的有獎遊戲亦成績不俗居第二。

#高鐵 #一地兩檢 #一國兩制 #福田口岸


#大數據 #socialmediaanalysis #socialmedialistening

聯絡我們,索取更多個案及洞察報告https://www.umaxdata.com/hk/contact-us-hk.html


貨櫃屋你點睇?房屋新政兩派焦點是…

#輿情分析】新施政報告出爐在即,近期政府亦提出不少新方案以圖處理房屋問題,昨日除了「房屋共享計劃」外,亦有傳政府正研究興建貨櫃屋。

根據源大數據分析社交媒體數據,本月冒起的三大房屋議題中,建制陣營對港人首置計劃最熱衷,而泛民陣營則最熱議房屋共享計劃。

而對於傳聞中的貨櫃屋,網民多數擔憂居住環境惡劣,其次亦不少聲音聚焦於收緊單程證。


港人首置上車盤 香討成最熱輿論陣地

#輿情分析】上周特首林鄭月娥首談港人首置計劃,並表示詳情將於施政報告內交代。

在林鄭提及方案首日,聲量達到高峰,而蘋果日報的帖文奪得當日熱帖榜首;本周初的聲量明顯回落,周一聲量稍為回升,當日熱帖首位為經濟日報一則帖文。

而整合眾多渠道的發帖量後,香港討論區的聲量超越蘋果日報,成為各渠道之首。

#大數據 #socialmediaanalysis #socialmedialistening #港人首置 #土地問題

Click入源大Facebook,追蹤時事熱話


講大數據時 不能忽略小數據【張Sir講數之九】

去年美國總統大選後,網絡上突然湧現不少文章,關於特朗普陣營如何利用大數據去分析選民的社交行為、性格特徵和心理測試,並且通過精準定位及個性化宣傳等手法,從而幫助特朗普取得最後勝利。同時,關於傳統民調在預測希拉莉贏得選舉方面,則處處失靈,備受質疑之聲不絕,甚至出現「民調已死」的論調。

事後回顧,利用大數據來分析網民在社交網絡上的使用行爲軌迹和情緒方面,確實發揮了作用,特朗普的競選策略可以根據網民的反應做出快速靈活的調整,然而,大數據究竟在心理測試及與選民個人資料進行對接方面,是否真的如傳聞般如此簡單化?對於特朗普贏得選舉的效果有多大?負責提供大數據技術的公司也說不出其所以然。

至於傳統民調的失靈,也有不少事後諸葛亮的分析。其中,美國著名的研究機構皮尤中心有三點解釋:民調樣本的偏差,也就是說,有一部分人群沒有得到民調的覆蓋。例如,教育水平、收入和政治熱心度較低的人,透過電話接受民調的可能性會較低。當出現民調無法覆蓋的選民踴躍投票的情況,那麼民調結果的準確性就會受到影響。其次是基於當時的政治氣氛,很多支持特朗普的選民沒有向民意調查機構坦誠回答他們支持誰。其三,在接受民調時有表示去投票,但實際上沒有去投票的受訪者,也會影響預測模型的準確性。

雖然傳統民調確實會出現如皮尤中心解釋的情况,但民調在歷次選舉中,預測準確的比率還是佔多數。事實上,如果從希拉莉最後的普選得票率來看,比特朗普多出2.1個百分點(48.1%比46%),而當時全國民調的平均值也顯示希拉莉的得票率領先3%左右。由此可見,“民調已死”的論調未必成立。

線上大數據 線下小數據

張Sir翻炒上面的例子,目的是指出,當下很多人一談大數據,要麼是瘋狂迷信之,對傳統的小數據(這裡特指民調數據)一律採取嗤之以鼻的態度;要麼是對大數據的作用和影響,不以為然。張Sir在本欄講了幾期大數據,當然是肯定其對商業、社會及政府所起到的作用會越來越大,同時,如果能結合小數據的話,則必然起到乘法效應。剛才提及特朗普僱用的數據公司,在分析選民的特徵時,其實也應用了大量的個人數據,例如土地登記和汽車數據、購物數據、俱樂部會員資格、訂閱的雜誌、人們所去的教堂等,當中有的是記錄式的數據,有的是通過民調方式獲取的數據。
 
那麼,小數據是什麼呢?學術上或業界對此其實沒有一個公認的標準定義。在數據分析師眼裡,消費者個人在線下場景的消費習慣行為數據就是小數據;對市場研究人員來說,通過問卷調查或個體訪談獲取的數據,便視之為小數據。因此,小數據是相對於大數據而言的數據,是在實地場景中,通過主動與消費者接觸而直接收集回來的數據,例如人口特徵,性別、年齡、購買動機、個人的興趣、滿意度、忠誠度、價值觀及品牌感知態度等等。張Sir上期提及的OTAs大數據,可以監測酒店業的總體及個別的酒店聲譽價值,挖掘出顧客對酒店服務或設施的評價,以及瞭解顧客的評價和喜好。這些大數據可提供給酒店的「是什麼」,若結合問卷調查的小數據的話,則可以探索「為什麼」,以及做出更多的態度和體驗方面的多維度的分析。

在數據時代,大小數據的結合,將讓企業更全面地瞭解顧客、認識自己。

張榮顯 博士
亞太區互聯網研究聯盟主席、香港源大數據首席顧問
(原文載於經濟日報,獲准轉載)


天鴿掀起輿論浪潮 8月熱話埋單計數

#輿情分析】今個月先有林子健事件哄動全城,後有社運人士被覆核刑期改判囚,及至月尾一連三個颱風襲來,加上近日才冒起的國歌法討論,四宗熱話一相比,可發現關於颱風的討論尤其多。而整合全月數字,聲量排名第二的是一地兩檢,雖然未見明顯高峰,但仍持續有討論,惟聲量徐徐滑落。

源大數據亦整合各大Facebook專頁的發帖情況,發現在一地兩檢議題上,港人講地發帖量居首,平均每日發帖6.6條;然而在颱風議題上,居首的01新聞發帖量亦甚多,在半個月的討論期內,平均每日發帖達11條。

#大數據 #socialmediaanalysis #socialmedialistening #國歌法 #一地兩檢 #公民廣場 #東北案 #林子健 #天鴿

Click入源大Facebook,追蹤時事熱話


國歌法爭議 網路世界談什麼?

#輿情分析】人大常委會將審議將《國歌法》列入港澳基本法附件三,新聞一出,在網上頓時有不少回響。

源大數據發現,在網上言論中,大眾最常用的字眼是「尊重」,其次「立法」議題亦是焦點所在。除此之外,亦有不少人提及「黎明」,其中大部分言論均以《全日愛》作為惡搞國歌例子。

綜合這兩天數據,蘋果日報的Facebook專頁累積得最高熱度值,成為事件中最熱門專頁。而100毛雖然兩天內只有一條相關帖文,該帖文卻登上熱帖榜首,獲得4700多個reactions及400多次分享。

#大數據 #socialmediaanalysis #socialmedialistening #國歌法

Click入源大Facebook,追蹤時事熱話


一地兩檢方案滿月 網上聲浪已式微

#輿情分析】上月25日,政府公布一地兩檢方案,即日激起大量回響。一個月後的今天,網上的聲浪已大幅回落。八月中發生林子健事件,當中夾雜不少關於一地兩檢的討論,然而亦未有帶動整體聲浪回升。

這個月以來,最熱門的Facebook專頁是幫港出聲,而最熱門帖文則是「譚文豪實測高鐵上廣州」,獲得6600多個Reactions及6000多次分享轉載。

舊帖回帶:
【一地兩檢一出爐 Facebook嬲嬲暴增】
http://bit.ly/2wu01o2
【一地兩檢出爐四日 網民活躍時間是?】
http://bit.ly/2watKjm
【書展遇上一地兩檢 七月熱話埋單計數】
http://bit.ly/2wMotRm


智慧城市宜先了解市民日常需求

本欄上期提到都市人們生活繁忙,無處不「等」,在本港的網絡建設位列全球前茅的基礎上,可以開發出不少「便民免等」的手機應用服務,這也是發展智慧城市中一個從小做起的一個方向,解決市民最迫切的需求。

觀乎近年某些地方在發展智慧城市時,一開始就來一個宏偉的大藍圖,利用以大數據為核心的雲計算平台,打通政府各部門的數據孤島,達到數據共享,便可以實現智慧交通、智慧政務、智慧醫療、智慧旅遊,甚至智慧決策的目標。

誠然,智慧城市的落實,確實需要有洞見、有目標、有規劃地推進;然而,當勾勒好這些所謂的智慧項目後,實際落實起來,是否真的可以如此美好及順暢?

一般認為,智慧城市發展需要經歷四個階段:電子化(數碼化)、網絡化、智能化、智慧化。

就以電子化及網絡化的問題來看,大部分的政府部門在許多年前已經進行電子化的工作,不少涉及民生及大眾最為關注的政府服務,諸如查詢天氣、網上遞交電子表格、網上繳稅等,都已經實現網絡處理。根據特區政府創新及科技局公開的《2016年最常和最不常以電子方式提供的20項政府服務》資料顯示,現時透過網上遞交政府申請表格項目超過1370款,在網上繳費方面,市民可以使用信用卡、扣賬卡、電子支票、網上銀行、自動櫃員機、郵寄繳款、便利店及郵繳通等方式繳交政府賬單和費用。

此外,市民最常通過電子方式查詢資料的服務,於2016年逾1000萬次的,在排名前五項服務中,除了第四項是勞工處的求職查詢外,前三項及第五項,都是來自香港天文台的服務,而且都百分百通過電子化方式實現;涉及到電子交易的項目方面,最多及百分百電子化的是香港郵政的郵件追查,而市民利用康樂及文化事務署的圖書預約/續借及庫務署的政府賬單收費服務,皆有上千萬次,但其電子化並未完全實現,比率分別為69%及52%。

至於涉及民生服務重中之重的交通方面,卻沒有出現在上述的20項政府服務中,這並不意外。對於市民對交通的需求來說,並不單純是電子化或網絡化的問題,而更可能的是進入智能化或智慧化的階段,例如巴士什麼時候到站、巴士目前的行駛路線、駕車前往目的地沿途的交通狀況,可不可以通過智能手機的方式查詢,更進一步來說,系統的服務能不能自動化地向有需要的市民發出相關到位的提醒訊息。

目前,特區政府正在透過顧問公司進行「智慧政府」的研究,以提出發展方向和具體建議。根據外地的經驗總結,有三個問題需要引起足夠的重視,首先是太重視技術手段而輕視市民的真正需求,其次是偏重硬件的投入而忽略應用開發及體驗,其三是由政府主導太深,市場及社區的參與被邊緣化。

城市為人而造,需求、體驗及參與三者缺一,要智慧起來,難度就大。

張榮顯博士
亞太區互聯網研究聯盟主席及香港源大數據科技有限公司首席數據顧問

(原文載於信報)