博碩士論文 106423012 詳細資訊

姓名 黃晧誠(Hao-Cheng Huang)  查詢紙本館藏   畢業系所 資訊管理學系
論文名稱 中文筆順預訓練效能之研究
摘要(中) 預訓練(Pre-training)在自然語言處理極為重要,然而中文在較新的自然語言處理 遷移學習研究較少,且多數是基於特徵及靜態嵌入方法之模型,因此本研究提出利用中 文更深層的特徵——筆順,納入輸入維度以學習子字元之特徵,並以近期提出基於特徵 方法 ELMo 及微調方法 BERT 的預訓練模型為基礎進行修改,試探討筆順對於中文預 訓練模型的影響,提出利用卷積類神經網路模型考量筆順特徵(Stroke)之 ELMo+S 及 BERT+S 模型。最後,使用下游任務 XNLI 及 LCQMC 資料集進行評估,結果顯示筆順 特徵對於這兩種預訓練模型並無明顯幫助。
摘要(英) Pre-training is extremely important in natural language processing. However, Chinese studies about transfer learning are less, and most of them are uesd features-based and static embedding methods. Therefore, this study proposes to use deeper features by Chinese- strokes, and integrates input dimensions to learn the characteristics of sub-characters based on the recent proposed pre-training model ELMO with feature-based method and BERT with fine-tuning method. We proposed the ELMo+S and BERT+S models which consider stroke features by the convolutional neural network. Finally, the results show that stroke features are not significantly helpful for these two pre-training models on the downstream task XNLI and LCQMC datasets.
關鍵字(中) ★ 預訓練
★ 表徵
★ 自然語言處理
★ 中文
★ 筆順
關鍵字(英) ★ Pre-training
★ Representation
★ Natural language processing
★ Chinese
★ Stroke
論文目次 摘要 i
Abstract ii
誌謝 iii
目錄 iv
圖目錄 vii
表目錄 ix
一、 緒論 1
1-1 研究背景 1
1-2 研究動機 2
1-3 研究目的 4
1-4 研究架構 5
二、 相關研究 6
2-1 特徵抽取模型 6
2-1-1 CNN 6
2-1-2 LSTM 10
2-1-3 Transformer 14
2-2 預訓練 18
2-2-1 基於特徵 18
2-2-2 微調 20
2-3 中文 23
2-3-1 基於特徵 23
2-3-2 表徵 24
2-4 小結 25
三、 研究方法 26
3-1 研究架構 26
3-2 資料前處理 27
3-2-1 簡繁轉換 27
3-2-2 筆順 27
3-3 預訓練模型 28
3-3-1 ELMo+S 28
3-3-2 BERT+S 30
3-4 下游任務模型 30
3-4-1 ELMo 下游模型 30
3-4-2 BERT 下游模型 32
3-5 模型評估 33
四、 實驗與結果 34
4-1 前處理與資料集 34
4-1-1 筆順對應表 34
4-1-2 詞彙表 35
4-1-3 預訓練外部語料庫 35
4-1-4 下游任務資料集 36
4-1-5 各資料集之筆順長度 38
4-2 實驗環境 43
4-3 實驗設計與結果 44
4-3-1 實驗一:簡繁與筆順長度對於模型之影響 44
4-3-2 實驗二:CNN 及卷積核大小對於模型之影響 47
4-3-3 實驗三:高速網路對於模型之影響 48
4-3-4 實驗四:筆順對於預訓練模型之影響 49
五、 結論與未來研究方向 52
5-1 結論 52
5-2 研究限制 53
5-3 未來研究方向 54
參考文獻 55
英文文獻 55
指導教授 林熙禎 審核日期 2019-7-19
