書展最後衝刺 補充練習後來居上

#輿情分析】上周書展開幕後,各大媒體對「#旅遊」談論最多,然而經過一個周末,「#補充練習」後來居上,更在周六一度成為全城熱話。

然而在多個話題中,補充練習所得負面回應亦是比例最高。在Facebook上,當談及補充練習,除去慣常佔最大比數的Like後,喊喊則成為主要情緒反應。

#深表同情 #愈做愈傷心 #求學不是求分數 #好似係

#香港書展 #大數據 #源大數據 #社交媒體分析 #socialmediaanalytics#socialmediamonitoring

相關連結:Facebook帖文

註: 本文涉及情感分析僅以系統計算所得,並不反映支持度。


利用大數據分析工具做商業決策【張Sir講數之六】

在大數據時代,尤其是社交媒體的出現,讓網民可以無時無刻透過文字、圖片或影像,對社會時事或產品服務發表自己的看法,於是在網絡世界形成了海量非結構化的用戶自製內容(user generated content, UGC),並留下各種行為軌跡。這些實時、多樣及海量的網民意見和行為數據對今時今日的商業決策和競爭分析變得越來越重要,如何有效分析這些數據並從中得到有價值的洞察,則是許多企業面對的難題。

數據要煉金 管理分析是王道

欲使大數據能真正產生其潛在的價值,必須經過兩個重要的流程:數據管理(Data Management)及分析(Analytics)。數據管理是指從原始數據的收集、儲存、提取、清理、標籤化,到整合成可供分析的數據的過程;分析則是指一套包含一系列的技術、方法和策略的工具,可對數據進行意義挖掘,從而提煉成有助決策的洞察(insight)。

雖然市面上出現愈來愈多的大數據分析工具(Big Data Analytics),但並非每一個企業或商業部門的需求都一樣。因此,有些工具是為了分析網民瀏覽網站的各種行為,例如Google Analytics;有些工具則是通過整合不同來源和類型的數據,例如市場活動、銷售成效、營運績效等資料,並製成可視化的報告,例如Watson Analytics。也有一些是專門為深度挖掘網民言論的,例如筆者上期提及的AI輔助網絡意見挖掘平台是其中之一。

因應目的 選取不同分析工具

當前,最流行的大數據挖掘工具是文本分析(text analytics)或文本挖掘(text mining)。這是因為企業本身或透過第三方服務商,可以相對比較容易地取得社交媒體的網民留言、與用戶交流的電郵內容、客戶意見箱、網絡新聞、論壇、訪談內容及企業內部的暗數據(dark data)– 那些只作記錄但沒有即時實際應用目的而收集的非結構化數據。文本分析工具也因為其分析對象及目的,可分為資訊提取(Information extraction)、文本摘要(text summarization) 、問答式(question answering, QA)及意見挖掘(opinion mining)。

資訊提取一般是從一大堆的非結構化數據中,提取某些固定的詞語,形成結構化的數據。例如在一段推廣文案中,要提取某產品的名稱、公司地址及電話號碼,通常會利用關鍵字匹配方式。文本摘要是利用算法抽取眾多文件中被認為是重要的部分而形成的摘要,或根據自然語言處理技術重新組成新語句的摘要,通常其目的是便於一覽文本的概況。問答式工具是指在自然語言的場景中的一問一答。例如蘋果的Siri和谷歌的語音助手,通過利用資訊的提取和語義判斷等方法來實現。

情感分析 句句關鍵

至於意見挖掘,或坊間俗稱的情感分析(sentiment analysis)則是近年最為熱門的應用,無論是市場人員、財經分析員、政務輿情分析員抑或學術界的研究人員,都投入了大量資源在此工具上。使用此工具的業界,礙於技術及工具性能的限制等原因,通常只針對整篇文本(文件)層面進行正負面的分析,造成分析的對象變得模糊,例如在社交媒體的一篇意見中,網民不止提及一個品牌或一種服務類型,此時,情緒分析的結果,究竟正負面指涉的是產品A還是產品B,又或是指向服務人員的言語,還是其外表儀態,便無從分辨開來。

因此,要挖掘意見的深度,需要從句子層面或類別層面,才能窺見情緒之全豹,這樣更能清楚了解網民對個別品牌或服務的評價,利於做出精準的判斷和有效決策。

張榮顯 博士
亞太區互聯網研究聯盟主席、香港源大數據首席顧問

(原文載於經濟日報,獲准轉載)


書展開鑼 網民最關注的是…

#輿情分析】一年一度 #書展 昨日開始!


源大數據分析昨日至今早的數據,發現Facebook少有地比新聞媒體主帖更多,而在Fb上最多人提及的話題卻是「#文具」。今年 HKTDC 香港貿發局所定主題「#旅遊」則在新聞及Twitter上排首位,往年多人提及的「#寫真」依然在論壇及instagram上備受熱議,反而考生及家長至寶「#補充練習」關注不多。


我們還統計了這時段中最多reactions的帖文,發現U Magazine在多個項目榮獲首位,而林日曦的帖文亦博得網民會心一笑,紛紛對其粉絲的男女比例表示關心。


DQ案遇上財委會 網民熱議什麼議題?

#輿情分析#DQ 案後,今日的 #財委會 會議成為第一個戰場。早前特首林鄭月娥上任後,提出36億教育新資源撥款,今日亦在財委會中審議。

源大數據以大數據分析,發現當談及DQ案時,教育撥款在多項撥款中獲得最多關注,而正面、中立、負面的意見亦比例相若。

在社交媒體上,教育撥款亦同樣是關注重點,有數項工程撥款甚至未有人提及。


#大數據 #立會宣誓風波 #socialmedialistening


相關文章:Facebook帖文


註: 本文涉及情感分析僅以系統計算所得,並不反映支持度。


利用AI輔助挖掘網絡意見的價值【張Sir講數之五】

上期筆者提到,若把大數據「結構化」,等於為數據產生價值奠下基礎。此話怎說?隨著近年ABC(Artificial Intelligence,即AI的A,Big Data的B及Cloud Computing的C)的飛速發展,在人類史上讓三者同步出現及結合利用起來,使得過去很多被認為不可能實現或未及實現的東西,現在變得可能,對企業、政府及社會生活的方方面面,將產生無可估量的價值及影響。根據麥肯錫最新的報告–《人工智能:下一個數字前沿?》(ARTIFICIAL INTELLIGENCE:THE NEXT DIGITAL FRONTIER?)估計,全球科技巨頭於2016 年在人工智能的投資超過300億美元,其中 90% 花在研發和部署上, 10% 則花在人工智能併購上。研究發現,有少數幾家早期進入的公司已經開始從中獲益,使得其它公司在數字轉型上有急起直追的壓迫感,AI的應用也正進入最後突破階段。

雖然AI正以雷霆萬鈞之勢向前推進,但筆者認為,當中涉及到人類的認知、情景語義和情緒解讀方面,光透過AI在當前是無法完全實現的。近年比較熱門的網絡意見、社交媒體監測及洞察等應用,正是此類,有別於坊間在高談闊論的機器人(如AlphaGo)、自動化載具、感知行為或電腦視覺類的AI。上述網絡意見,即網民在不同的網絡平台,例如社交媒體、論壇、網絡媒體上以文字、表情符號、圖片及影片的方式表達出來的態度和情緒,可通過在線實時的採集、結構化、挖掘及分析,其結果可讓政府、企業及各種組織獲得一系列的洞察結果,從而編排戰略或調整策略,更貼切回應公衆對政府的政策以及消費者對品牌的體驗和服務的反饋。 

四大圖表未必準確 無助決策

早在十多年前,分析網絡意見開始萌芽發展時,主要以技術爲導向,業內人員把精力集中在數據結構化,及以語料方式對網絡文本進行正負面情緒的匹配,其分析結果主要以圖表的方式呈現,即俗稱的圖表四大金剛:意見來源的分布、某個議題的聲量趨勢變化、正負面的情緒分布,以及表示熱門關注點的詞雲圖。這些圖表雖然可以讓决策者及時瞭解到解網絡意見的散布及關注點,而情緒分析的準確度不高及指向模糊,加上在洞察力及決策資訊的提供方面,卻在在顯得軟弱無力。

近年,隨著機器學習的飛躍式發展,使得可通過AI的輔助,加上以人工編碼的方式,從而在上述圖表之外增加深度挖掘的分析層:利用大數據技術及機器學習,先從海量數據中找出未知的網絡意見形態,再以懂得行業知識的專業團隊在上述形成的已知形態中,設定深度挖掘的方向及分析類目,並驗證涉及人類的認知、情景語義和情緒類的數據。通過人機結合的方式,可以解決網絡意見中通常充滿了的暗語、俚語、反諷、上文下理邏輯及有條件式的意向。例如在Faceboook上有意見說:「搞乜鬼,今日辦證排隊快到冇朋友!」顯然是心情舒暢、對服務滿意的一種情緒表達,但純機器判斷可能是負面的。再如在某酒店預訂網站上有人說:「房間挺大,位置方便,但前台人員禮貌不好。」一般的機器理解,可能是正面居多,但對酒店來說,這顯然是一種負面的評價,房間大小和位置無法改變,如果只依賴機器的判斷,就會錯失了改善前台服務的機會。 

如今,網絡意見已成為影響企業發展和政府施政的晴雨錶。透過AI的輔助,加上人工的專業判斷,都可大大提升處理海量數據及價值挖掘的能力。

張榮顯 博士
亞太區互聯網研究聯盟主席、香港源大數據首席顧問

(原文載於經濟日報,獲准轉載)


議員DQ案 熱話保質期有多久?

#輿情分析】DQ風波經過一個周末,在輿論中已熱潮漸減。


就大數據統計所得,在宣誓案裁決一出,輿情熱度就達至高峰,然後驟跌,至傍晚八時民主派集會,令輿情再升,之後再迅即回滑。第三個小高峰出現於翌日上午十時,其後此議題已熱度不再。


#大數據 #socialmedialistening #DQ #立會宣誓風波 #源大數據

相關文章:Facebook 帖文


議員DQ案 即時點燃網上輿情

#輿情分析】今日立會議員宣誓案裁決,四名議員被判失議員資格。裁決一出,網上即時燃起大量討論。


源大數據選取了另外兩個近日時事熱話比較,從大數據分析可見,蔡若蓮的議題經連日熱議,在前日聲量已漸回落,而一地兩檢的話題則在昨日被宣誓風波超前。今日焦點已明顯轉向宣誓風波之上。


高院約在下午3時宣布裁決,一小時內,相關聲浪大幅增加,社交媒體反應甚速,Facebook及論壇聲量共佔過半。截至下午4時半,三個新聞媒體的專頁成為Facebook上的意見領袖,其中立場新聞更獲得過千分享數。


#DQ #宣誓風波 #立法會 #大數據 #源大數據

相關文章:Facebook帖文


DSE狀元全選醫科 輿論怎樣說?

#輿情分析】狀元不易做啊~ 不只讀書難,要耐得住輿論的壓力也很難。昨日DSE放榜,6名狀元全數希望從醫,引起社會熱議。


源大數據分析了昨天的數據,發現談及狀元時,「醫生」「律師」固然多人提及,「社會」亦同樣熱門,幾乎與「大學」並列,看來大眾對狀元的確期望甚殷。


而在三大輿論陣地中,新聞上的正面情感佔極大比數,而負面情感亦是三者中比例最少;相對而言,論壇上的負面情感比例則是三者中最高。


#狀元唔易做 #醫生都唔易做 #DSE放榜 #讀醫 #大數據#socialmedialistening


相關連結:Facebook帖文


註: 本文涉及情感分析僅以系統計算所得,並不反映支持度。


關於DSE放榜 大家說的其實是…

#輿情分析】今日DSE放榜,全城關注。根據大數據分析,論壇上的討論竟比Facebook熱烈,而一眾巴絲打亦份外熱心,令連登成為「最大聲」的媒體,拋離一眾新聞媒體。


源大數據把各媒體上的議論內容製成詞雲圖,發現「大學」固然最備受關注,但「朋友」、「機會」、「希望」等亦相當多人提及。


#網民的溫柔 


相關連結:Facebook帖文


大數據要講結構化【張Sir講數之四】

在「大數據」(big data)一詞尚未成為坊間熱詞之前,其實各種各樣的數據已經無處不在,例如常見的是政府定期公布的人口及經濟數據,如出生率、失業率、GDP等,這些乃通過登記和調查等方法收集回來後再進行加工計算處理的數據。再來是各行各業的顧客、貨品和交易數據,如網購平台上形形色色的商品資料、價格、交易數量及金額;又如通訊領域的通話時長、信用卡的卡主和交易明細等等,這些多數是行爲的結果所産生出來的數據。

自從進入互聯網時代,人們在網絡上的一舉一動,如一個滑鼠點擊或一個鍵盤字母的敲打,都被記錄在提供網頁的伺服器的日誌裡,形成了龐大而實時不斷積累的數據;當人們走進圖書館借書或去機場託運行李,處於什麼位置或出現在那裡,都逃不過RFID、GSP定位技術或CCTV攝像機的法眼,大量的數據因此而產生。如果以上數據反映着人們的行為,那麼,每天在社交媒體上點一個讃、發一聲歎息、上載一張食相圖或拍一段閱後即焚的生活短片,就是用數據描繪了人們的喜怒哀樂狀況。

從上面提到的加工數據到最後的社交數據,用「大數據」時代的術語來形容的話,就是從「結構化」到「非結構化」的數據。

圖案文字難運算 須先結構化

所謂「結構化」數據,就是那些可以整整齊齊、有條不紊地排列起來的數據。舉個簡單的例子,幾乎人人都見過的Excel表格,裏面的每一筆資料都有固定的欄位、固定的格式、固定的順序甚至是固定的長度。比如一個簡單的員工資料表,包括幾百位員工的編號、姓名、性別、出生日期、薪酬等等,都是以行和欄交叉組成的儲存格記錄下來,這些資料可以用數字來表示,並且可以進行加减乘除的計算。對於「非結構化」數據而言,顧名思義,它是「沒有」結構形態的,例如在Facebook上發一段讚歎某菜色的文字,配上幾張垂涎欲滴的精美照片,它既沒有欄位,也沒有固定格式,更不能馬上轉換成數字並以算術計算。

為什麼我們需要搞清楚數據的結構形態呢?這涉及到要讓大數據發揮作用和產生價值的問題。首先是能否把雜亂無章、亂作一團的數據整理成井然有序的數據,這樣,我們就可以按照一定的規則或算法來進行後續的處理和分析。過去,很多數據都是在既定的規則下先設計好各種格式,然後把收集回來的數據填充上去,例如商業智能(BI)産生的報表和儀錶盤(dashboard)數據。然而,大數據時代,那些網絡使用日誌、傳感器收集的定位及影像資料、社交媒體上的文字、圖片及影片,是隨時隨地、實時地、不可預測地湧現,此時,必須通過收集後再整理成結構化的方式,才能真真正正地把數據活起來。

把大數據「結構化」,就是為數據創造價值奠下基礎。

張榮顯 博士
亞太區互聯網研究聯盟主席、香港源大數據首席顧問


(原文載於經濟日報,獲准轉載)