Views:
37
在大數據時代,尤其是社交媒體的出現,讓網民可以無時無刻透過文字、圖片或影像,對社會時事或產品服務發表自己的看法,於是在網絡世界形成了海量非結構化的用戶自製內容(user generated content, UGC),並留下各種行為軌跡。這些實時、多樣及海量的網民意見和行為數據對今時今日的商業決策和競爭分析變得越來越重要,如何有效分析這些數據並從中得到有價值的洞察,則是許多企業面對的難題。
數據要煉金 管理分析是王道
欲使大數據能真正產生其潛在的價值,必須經過兩個重要的流程:數據管理(Data Management)及分析(Analytics)。數據管理是指從原始數據的收集、儲存、提取、清理、標籤化,到整合成可供分析的數據的過程;分析則是指一套包含一系列的技術、方法和策略的工具,可對數據進行意義挖掘,從而提煉成有助決策的洞察(insight)。
雖然市面上出現愈來愈多的大數據分析工具(Big Data Analytics),但並非每一個企業或商業部門的需求都一樣。因此,有些工具是為了分析網民瀏覽網站的各種行為,例如Google Analytics;有些工具則是通過整合不同來源和類型的數據,例如市場活動、銷售成效、營運績效等資料,並製成可視化的報告,例如Watson Analytics。也有一些是專門為深度挖掘網民言論的,例如筆者上期提及的AI輔助網絡意見挖掘平台是其中之一。
因應目的 選取不同分析工具
當前,最流行的大數據挖掘工具是文本分析(text analytics)或文本挖掘(text mining)。這是因為企業本身或透過第三方服務商,可以相對比較容易地取得社交媒體的網民留言、與用戶交流的電郵內容、客戶意見箱、網絡新聞、論壇、訪談內容及企業內部的暗數據(dark data)– 那些只作記錄但沒有即時實際應用目的而收集的非結構化數據。文本分析工具也因為其分析對象及目的,可分為資訊提取(Information extraction)、文本摘要(text summarization) 、問答式(question answering, QA)及意見挖掘(opinion mining)。
資訊提取一般是從一大堆的非結構化數據中,提取某些固定的詞語,形成結構化的數據。例如在一段推廣文案中,要提取某產品的名稱、公司地址及電話號碼,通常會利用關鍵字匹配方式。文本摘要是利用算法抽取眾多文件中被認為是重要的部分而形成的摘要,或根據自然語言處理技術重新組成新語句的摘要,通常其目的是便於一覽文本的概況。問答式工具是指在自然語言的場景中的一問一答。例如蘋果的Siri和谷歌的語音助手,通過利用資訊的提取和語義判斷等方法來實現。
情感分析 句句關鍵
至於意見挖掘,或坊間俗稱的情感分析(sentiment analysis)則是近年最為熱門的應用,無論是市場人員、財經分析員、政務輿情分析員抑或學術界的研究人員,都投入了大量資源在此工具上。使用此工具的業界,礙於技術及工具性能的限制等原因,通常只針對整篇文本(文件)層面進行正負面的分析,造成分析的對象變得模糊,例如在社交媒體的一篇意見中,網民不止提及一個品牌或一種服務類型,此時,情緒分析的結果,究竟正負面指涉的是產品A還是產品B,又或是指向服務人員的言語,還是其外表儀態,便無從分辨開來。
因此,要挖掘意見的深度,需要從句子層面或類別層面,才能窺見情緒之全豹,這樣更能清楚了解網民對個別品牌或服務的評價,利於做出精準的判斷和有效決策。
張榮顯 博士
亞太區互聯網研究聯盟主席、香港源大數據首席顧問
(原文載於經濟日報,獲准轉載)
Leave a Reply