Data Generation

Data Generation

Share

15/09/2015

R軟體趨勢大師論壇:R軟體在中文文字探勘的應用(下)
專題演講重點紀錄,2015年6月29日於台北醫學大學
 
繼上次介紹文字探勘的概念後,這次文章直接進入重點介紹R軟體在中文文字探勘中的應用。
 
文字探勘的流程:
Step 1. 文件內容的萃取、轉換與整理(含斷詞)
文件內容的截取建議交給專業的資訊人員做這部分,與其花時間學習這部分,不如專心把心力放在這些文件都抓下來後如何去分析它。舉一個簡單的例子,就算學會所有抓取這些網路資訊與文件的方法,但是資本不夠強,只能用一台電腦抓,沒多久就會被偵測是大量定時的來抓取資訊,IP就會被封掉。這樣就算技術再好,也沒辦法再抓了。
 
Step 2. 資料已轉成結構化資料之後,接下來做更進階字詞或語意分析,且將基本、粗淺的結構化資料擷取出更有意義的新變數,讓資料變成有意義的結構化資料。新變數如關鍵詞出現比例、TF-IDF詞彙中要性指標等
TF:字彙頻率;DF:文件頻率;TF-IDF=TF/DF
 
Step 3. 利用上述資料進行資料探勘
 
R package: tm 流程
截取文件 中文斷詞(option) 建立語料庫(Corpus) tm_map:文件轉換、清理(可進行中文斷詞,清除數字、英文等) 建立tdm或dtm矩陣 擷取新變數 資料探勘
 
註: tdm中, t為term(橫列), d是document(直行), m表示matrix
 
R軟體的文字探勘套件
1. tm: 文字探勘
2. tmcn: 文字探勘中文輔助套件
3. Rwordseg, jiebaR: 中文斷詞(CN)
4. rmmseg4j: 中文斷詞(TW)
5. wordcloud: 文字雲
6. RTextTools: 文章分類/文字探勘工具
7. topicmodels: 主題模型
8. lsa: 潛在語意分析
9. rJava
10. XML: 處理XML格式的文件
11. RCurl: 透過網路抓取外部網路資訊的工聚
12. twitter: 抓取twitter資訊
13. Rfacebook: 抓取Facebook資訊
 
接下來介紹文字探勘中比較難搞定的情感分析。情感分析是嘗試用文字探勘技術判別或偵測文件的情緒特質。就像在讀一篇文章一樣,看了文章回應之後馬上跟你說這篇文章對於某一事件是正面評論還是負面評論。有些情感分析做的更細,從正到負分為五個等級(因為有更細微的感情)。根據我這陣子接觸資料的結果,我發現情感分析之所以難,除了技術的部分以外,跟人類並沒有那麼smart也有關係。我舉一個例子,光是我要建立一批巨量的文件,這些文件必須判定是正評還是負評,前後我請了大概五個人,這五個人判斷出來的結果都不一樣。
 
大部份情感分析到最後處理時,都可用資料探勘中的分類技術去做,要用這個分類技術之前,我們要先整理出情感分析可以用的變數,基本上有幾個做法:
1. 可從網路上下載中文正負評所用的詞,但此做法預測正確率並不高,因為所用的正負評的詞,遠比下載的來源還多
2. DIY的方式,大家各憑本事發揮創意判定正負評
 
最後,若大家對於R軟體在中文文字探勘的應用產生了興趣,建議大家可從本文章介紹的套件開始練習使用。
 
謝謝大家!!

13/09/2013

歡迎使用R語言的同好
可在此共同討論與分享^____^

Want your business to be the top-listed Computer & Electronics Service in Taipei?
Click here to claim your Sponsored Listing.

Address

信義區基隆路二段109號11樓
Taipei
110