WOT2016黃偉:基于深度學習的情感分析
原創(chuàng)【51CTO.com原創(chuàng)稿件】WOT2016大數據峰會將于2016年11月25-26日在北京粵財JW萬豪酒店召開,屆時,數十位大數據領域一線專家、數據技術先行者將齊聚現場,在圍繞機器學習、實時計算、系統架構、NoSQL技術實踐等前沿技術話題展開深度交流和溝通探討的同時,分享大數據領域***實踐和最熱門的行業(yè)應用。
51CTO記者對即將參加大會演講的百分點研發(fā)副總監(jiān)黃偉進行了專訪,讓我們先睹為快,探聽他在基于深度學習的情感分析方面的心得。
【講師簡介】
黃偉,百分點科技研發(fā)副總監(jiān)。主要負責機器學習和非結構化數據挖掘;特別是基于中文語義分析的商業(yè)應用,包括商品自動分類、商品畫像、情感分析和口碑分析等。同時致力于研究非結構化數據在量化投資中的應用。畢業(yè)于上海交通大學計算機專業(yè),曾就職于湯森路透等公司從事機器學習、圖像識別、自然語言處理方面的工作。
何為文本情感分析
文本情感分析:用自然語言處理文本挖掘以及計算機語言學等方法來識別和提取原素材中的主觀信息。通常來說,情感分析的目的是為了找出作者/筆者,在某些話題上或者針對一個文本兩極的觀點態(tài)度。這個態(tài)度或是個人判斷,或是評估,也許是當時的情感狀態(tài),或是作者有意向的情感交流。
互聯網中充斥著大量的非結構化文本數據, 這里面含有很多有價值的,但是無法簡單處理、提取的信息。情感是其中一類比較重要的信息,這時候就需要通過文本情感分析來對這部分信息進行自動提取。
當機器能夠自動對新聞或微博、論壇等非結構化文本數據進行情感提取,可以利用這些提取到的情感信息,應用到如公司負面檢測,從而及時發(fā)現公司品牌的輿情風險或投資風險,應用到產品或服務的正負口碑檢測,去改善產品設計或服務流程,還可以通過用戶的正負情感反饋,應用到電影票房的預測甚至如美國大選結果的預測。
深度學習VS普通機器學習
深度學習和普通的機器學習***的區(qū)別在于特征處理和模型結構上。
首先是在特征處理的方式上:普通的機器學習核心在于特征工程,效果的好壞90%取決于特征是否有效,這需要數據分析師對業(yè)務問題深度剖析,設計出對癥的特征,這樣的工程量是非常大的。
隨著數據量的大增和計算資源如GPU的發(fā)展,深度學習在大數據時代有了驚人的發(fā)展。在深度學習時代,可以通過數據本身的各種的特征讓機器自動去做特征提取,當數據量足夠大的時候,機器提取的特顯著好于人工特征。
第二,在模型結構上:深度學習主要是以類人腦的多層神經網絡模型為主,包括如DBM、RNN、CNN等不同的網絡結構和訓練方法。通過機器學習或淺層機器學習包括了若干種如LR、SVM、隨機森林、***熵、HMM等一系列能夠通過數據進行模型自動學習的模型。深度學習模型參數一般遠遠大于淺層學習模型,為了訓練效率的提升,一般采用GPU訓練。
情感分析的難點
人類的自然語言非常復雜。同一個意思可能有無窮盡的方式來表達,不同語境下同一段話,語義也可能有所不同。語義判別級別的文本情感分析也是非常困難的。
考慮到如蘋果(水果)、蘋果(公司)一詞多義、如風險高(負面)、情緒高(正面)詞的結合將產生不同的語義,同一個意思對不同的人產生不同的情感如價格高(賣者正面、買者負面),諷刺表達(你真厲害!這都不會)等情形, 雖然目前***的技術已經將效果大大提升,但還遠未能達到人的判別能力,還有很大的發(fā)展空間以及技術挑戰(zhàn)。
情感分析的利器:深度學習
深度學習為什么能解決情感分析這個難題?原因主要有三點:
一、 深度學習是神經網絡模型,如運用CNN、RNN等模型,能保留詞序信息。而這部分信息在淺層模型如LR、SVM、決策樹的應用中是需要丟棄的。這部分詞序信息,如果在大量訓練數據時能夠提升效果。
二、 深度學習,因為Embeddin特征的學習,具有很強的擴展性。神經網絡的模型,需要將詞進行向量化,利用如W2V\GloVe等離線模型(特征挖掘)向量的接入后,其特征已具備語義信息,訓練出的模型具有了很強的擴展性。而淺層學習的輸入多為詞級別的特征,對于實際訓練集非常有限的情形下,效果大受制約。
三、 情感分析是語義級別的文本任務,首先深度學習是多層的網絡結構,天生具備了學習深層次語義信息的架構,更符合人類思考的方式。
深度學習在文本情感分析上主要是運用輸入詞的Embedding向量接入,利用如CNN、RNN(LSTM)等神經網絡結構,通過SGD算法在訓練數據上利用GPU進行訓練。因為模型本身Embedding有包含語義信息和網絡結構保留了詞序信息,大量數據的訓練結果會使得效果上是要好傳統的機器學習。
但是也有一定的劣勢,因為實際訓練中沒有***或足夠大的標注集,模型的擴展性會擴大,因為標注集的問題(如數據不夠大,不滿足實際分布),會擴大錯誤率。所以模型的后期糾錯異常重要,這樣模型的效果(召回和精度)才能都提高。
百分點內部因為業(yè)務需要,持續(xù)進行情感分析模型的調優(yōu)。從最早基于規(guī)則的情感模型(結合一定的語法規(guī)則以及簡單進行正負詞統計的模型),到利用機器學習的方法去學習情感模型(基于標注數據、SVM決策樹等模型融合),***升級到利用CNN、LSTM去訓練模型,每一步都顯著的提升了效果,細節(jié)的做法和經驗將在WOT大數據技術峰會上給出。
【51CTO原創(chuàng)稿件,合作站點轉載請注明原文作者和出處為51CTO.com】