博碩士論文 104525003 詳細資訊




以作者查詢圖書館館藏 以作者查詢臺灣博碩士 以作者查詢全國書目 勘誤回報 、線上人數:43 、訪客IP:13.58.39.23
姓名 蔡融易(Jung-Yi Tsai)  查詢紙本館藏   畢業系所 軟體工程研究所
論文名稱 主動式學習之古漢語斷詞
相關論文
★ A Real-time Embedding Increasing for Session-based Recommendation with Graph Neural Networks★ 基於主診斷的訓練目標修改用於出院病摘之十代國際疾病分類任務
★ 混合式心臟疾病危險因子與其病程辨識 於電子病歷之研究★ 基於 PowerDesigner 規範需求分析產出之快速導入方法
★ 社群論壇之問題檢索★ 非監督式歷史文本事件類型識別──以《明實錄》中之衛所事件為例
★ 應用自然語言處理技術分析文學小說角色 之關係:以互動視覺化呈現★ 基於生醫文本擷取功能性層級之生物學表徵語言敘述:由主成分分析發想之K近鄰算法
★ 基於分類系統建立文章表示向量應用於跨語言線上百科連結★ Code-Mixing Language Model for Sentiment Analysis in Code-Mixing Data
★ 應用角色感知於深度神經網路架構之對話行為分類★ 藉由加入多重語音辨識結果來改善對話狀態追蹤
★ 對話系統應用於中文線上客服助理:以電信領域為例★ 應用遞歸神經網路於適當的時機回答問題
★ 使用多任務學習改善使用者意圖分類★ 使用轉移學習來改進針對命名實體音譯的樞軸語言方法
檔案 [Endnote RIS 格式]    [Bibtex 格式]    [相關文章]   [文章引用]   [完整記錄]   [館藏目錄]   [檢視]  [下載]
  1. 本電子論文使用權限為同意立即開放。
  2. 已達開放權限電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。
  3. 請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。

摘要(中) 目前進階的自然語言技術有事件擷取、事件分類、自動摘要等等,若是可以應用在古漢語中,對於歷史學者會有很大的幫助,但是自然語言處理應用在古漢語方面上,大部分都還在基礎的斷句、斷詞和命名實體辨識上使用監督式學習的方法去做辨識,因為古漢語標註的人員少門檻高,因此在建立監督式學習的方法的訓練資料需要花更多時間,進而影響進階的自然語言技術系統的開發,因為進階的自然語言技術所構成的基本元素就是語意詞,如果沒有準確度高的斷詞結果,都會直接影響到進階自然語言技術的準確度,因此,我們建立古漢語斷詞系統,相較於傳統,我們的系統在斷詞之前,不需要訓練資料。

現有的中文斷詞模組並不適合古漢語,文法與用詞上都相差太多,因此無法直接使用現有的中文的斷詞模組,但是訓練一個監督式學習的機器模型,又需要耗費大量時間和人力在定義與標註語意詞上,而且古漢語標註人員需要仰賴對歷史的專業度,加上對於標註沒有句讀的段落,致使人工標註時間增加,從上述幾個原因可以發現建立古漢語監督式學習的機器模型成本是很高的,因此,我們使用非監督式模型斷詞,再透過主動式學習找到可能錯誤的片段,提供給人來加以做修正,讓人工不用再去檢驗正確率高的部分,提升標註效率。

本篇論文實現了主動式學習之古漢語斷詞,並實用於【明實錄】上,我們以主動式學習取代需要大量人力標註的監督式學習,並且改善非監督式學習需要透過資料量才能增加精準度的缺點,透過主動式學習的網頁呈現出可能錯誤的片段,減少標註人員修正的次數。
摘要(英) Currently, advanced Natural Language Processing (NLP) includes event extraction or event classification, automatic text summarization and so on. Most NLP techniques for classical Chinese are still on the early stage, like sentence segmentation or word segmentation, named entity recognition. These basic applications usually use supervised learning to identify. Tagging the training data of these basic applications need to spend much time, because the people that know the classical Chinese are minority. Therefore, the current advanced Natural Language Processing for classical Chinese are difficult to develop. The basic element of most languages is word. The accuracy of word segmentation influences the effect of the current advanced Natural Language Processing directly. As a result, we develop the word segment system for classical Chinese. Compared with traditional word segmentation, we do not need training data.
This thesis focuses on applying active learning to word segmentation of historical texts. In addition, we apply the algorithm to the MING SHILU. We use active learning because it can reduce the annotation efforts significantly. We also mitigate the disadvantage of unsupervised model that needs large amounts of data to achieve satisfactory accuracy.
關鍵字(中) ★ 自然語言處理
★ 主動式學習
★ 古漢語斷詞
關鍵字(英) ★ Natural Language Processing
★ Active Learning
★ Classical Chinese Word Segmentation
論文目次 摘要 i
ABSTRACT ii
誌謝 iii
目錄 iv
圖目錄 vi
表目錄 vii
一、 緒論 1
1.1 研究動機 1
1.2 研究方向 2
1.3 章節概要 5
二、 文獻回顧 6
2.1 N-gram 6
2.2 N-gram variety 6
2.2.1 Accessor variety ( AV ) 6
2.2.2 Branch Entropy ( BE ) 8
2.2.3 Normalize Variation of Branch Entropy ( nVBE ) 11
2.3 N-gram cohesion and separation 13
2.3.1 Evaluation-Selection-Adjust ( ESA ) 13
三、 研究方法 17
3.1 問題定義 17
3.2 系統架構 17
3.2.1 監督式學習斷句模組 18
3.2.2 字典編解碼模組 19
3.2.3 時間編解碼模組 20
3.2.4 量詞編解碼模組 22
3.2.5 非監督式學習斷詞模組 ( nVBE ) 23
3.2.6 主動式學習模組 24
四、 實驗與評估 26
4.1 資料集 26
4.2 實驗組態 26
4.3 實驗結果 31
五、 實驗討論與分析 33
5.1 實驗結果 33
5.2 錯誤分析 34
六、 結論 35
參考文獻 36

參考文獻 1. Kotsiantis, S.B., I. Zaharakis, and P. Pintelas, Supervised machine learning: A review of classification techniques. 2007.
2. Li, S. and C.-R. Huang. Word Boundary Decision with CRF for Chinese Word Segmentation. in PACLIC. 2009.
3. Feng, H., et al. Unsupervised Segmentation of Chinese Corpus Using Accessor Variety. in IJCNLP. 2004. Springer.
4. Jin, Z. and K. Tanaka-Ishii. Unsupervised segmentation of Chinese text by use of branching entropy. in Proceedings of the COLING/ACL on Main conference poster sessions. 2006. Association for Computational Linguistics.
5. Magistry, P. and B. Sagot. Unsupervized word segmentation: the case for mandarin chinese. in Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2. 2012. Association for Computational Linguistics.
6. Wang, H., et al., A new unsupervised approach to word segmentation. Computational Linguistics, 2011. 37(3): p. 421-454.
7. Shannon, C., (1948)," A Mathematical Theory of Communication", Bell System Technical Journal, vol. 27, pp. 379-423 & 623-656, July & October. 1948.
8. Peng, F., F. Feng, and A. McCallum. Chinese segmentation and new word detection using conditional random fields. in Proceedings of the 20th international conference on Computational Linguistics. 2004. Association for Computational Linguistics.
9. Purandare, A. and T. Pedersen. Word sense discrimination by clustering contexts in vector and similarity spaces. in Proceedings of the Eighth Conference on Computational Natural Language Learning (CoNLL-2004) at HLT-NAACL 2004. 2004.
10. Mikolov, T., et al. Distributed representations of words and phrases and their compositionality. in Advances in neural information processing systems. 2013.
11. Mikolov, T., et al., Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.

指導教授 蔡宗翰(Tzong-Han Tsai) 審核日期 2018-1-25
推文 facebook   plurk   twitter   funp   google   live   udn   HD   myshare   reddit   netvibes   friend   youpush   delicious   baidu   
網路書籤 Google bookmarks   del.icio.us   hemidemi   myshare   

若有論文相關問題,請聯絡國立中央大學圖書館推廣服務組 TEL:(03)422-7151轉57407,或E-mail聯絡  - 隱私權政策聲明