中大機構典藏-NCU Institutional Repository-提供博碩士論文、考古題、期刊論文、研究計畫等下載:Item 987654321/81322
English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 80990/80990 (100%)
造訪人次 : 42447194      線上人數 : 1069
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜尋範圍 查詢小技巧:
  • 您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
  • 若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
  • 進階搜尋


    請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/81322


    題名: 多重標籤文本分類之實證研究 : word embedding 與傳統技術之比較;An empirical study of multi-label text classification: word2vector vs traditional techniques
    作者: 饒以恩;Rau, YI-EN
    貢獻者: 資訊管理學系在職專班
    關鍵詞: 文本分類;詞向量;機器學習;Word2Vec;惡意評論;text classification;Document representations;machine learning;toxic comments
    日期: 2019-08-20
    上傳時間: 2019-09-03 15:44:17 (UTC+8)
    出版者: 國立中央大學
    摘要: 網路的發展帶動社交媒體突飛猛進。因為社交媒體平台言論自由會造成濫用,像是網路騷擾或惡意評論等等……機器學習的最新進展也已改變了許多領域,電腦視覺、語音辨識和語言處理,本研究想使用機器學習的文本分類來有效地過濾出惡意評論。本研究使用的資料集是來自於Kaggle舉辦的競賽: Toxic Comment Classification Challenge,其資料來源為維基百科之評論,這些評論已被人類評估者標記為惡意且帶有毒性。學生運用機器學習(Machine Learning,ML)的方式搭配不同的向量表示法來進行數據的分析比較與預測。

    本研究中的向量表示法會採用TF-IDF與 Word2Vec兩種方式,且以K-近鄰演算法、支持向量機、人工神經網路、深度學習進行文本的分類。因資料集含有六種多重標籤: toxic、severe_toxic、obscene、threat、insult、identity_hate,故會針對此六種標籤各搭配不同的向量表示法及分類器比較分析。

    實驗結果表示在辨識惡意評論中,精準率(Precision)部分,TF-IDF搭配SVM分類器為本論文最佳組合;而召回率(Recall)部分,則以Word2vec搭配LSTM分類器為本論文最佳組合。
    ;The development of the Internet has led to the rapid advancement of social media. Because the free speech and anonymity of social media characteristic, it causes abuse such as cyber harassment and Toxic Comments. Machine learning have changed many fields, for example computer vision, speech recognition and language processing. I will use the text classification of machine learning to effectively filter out Toxic Comments. The dataset is from the competition organized by Kaggle: Toxic Comment Classification Challenge, whose source is Wikipedia′s comments. These comments have been flagged as malicious and toxic by human evaluators. I will use Machine Learning (ML) method to match different Document representations for data analysis and prediction.

    In this study, the Document representations of the text will use TF-IDF and Word2Vec for comparison and use KNN, SVM, ANN, Deep Learning as text classifier. This data set contains six multi-labels: toxic, severe_toxic, obscene, threat, insult, identity_hate, so the six labels are paired with different Document representations and text classifiers for comparative analysis.

    The results show that in the Precision section, there is best predictive performance in TF-IDF combined with the SVM classifier than Word2Vec. About the Recall section, there is best predictive performance in Word2vec combined with LSTM classifiers.
    顯示於類別:[資訊管理學系碩士在職專班 ] 博碩士論文

    文件中的檔案:

    檔案 描述 大小格式瀏覽次數
    index.html0KbHTML226檢視/開啟


    在NCUIR中所有的資料項目都受到原著作權保護.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明