論文名稱 以自動產生之標註資料進行明實錄人名命名實體鏈結
(Establishing an Entity Linking Model for Person Names in Ming Shilu with Automatically Constructed Labeled Data)
摘要(中) 命名實體鏈結 (NEL, Named Entity Linking) 是自然語言處理 (NLP,
Natural Language Processing) 的一項研究,在 NLP 中的研究中和應用
有著重要的作用,是不可或缺的一環,若能有效地提升 NEL 的準確性
的話就能更好的為開發高性能的 NLP 系統奠定基礎。
NEL 的主要挑戰是缺少帶標註的文本,在漢籍文本上尤為困難,
用 BERT 模型達成古人名的實體消歧與鏈結。
研究總共成功標註 8,787 個人名、257,302 個標籤,準確率 92.08%。
摘要(英) NEL plays an important role both in the study and application of NLP. If
the accuracy of NEL is effectively improved, the foundation of high-performance
NLP development can be laid.
The main challenge of NEL is the lack of annotated texts, especially in
studying Classical Chinese, because ancient names often appear repeatedly,
which makes it difficult to study the historical figures relationships and their
social networks. Our system used the China Biographical Database Project
(CBDB) and Ming Qing Biographical Database to generate training data and
then uses BERT model to eliminate the physical disambiguation of the names.
This study took the Ming Shilu as the experiment text. The Ming Shilu is
an official chronological history book of the Ming Dynasty in China, chroni-
cling 15 generations emperors, from Zhu Yuan-Zhang to Zhu You-Jiao, cov-
ering about 250 years. There is over 17 million characters including 30,055
volumes and 13 parts in the Ming Shilu. The text records the imperial pardons
and laws of each emperor as well as political, economic, cultural, and ritual
events year by year, including the imperial decrees and approvals submitted
by the imperial ministries, and the records of previous dynasties collected by
the provincial officials.
8,787 names and 257,302 tags were successfully tagged in this study, with
92.08% accuracy.
關鍵字(中) ★ 命名實體鏈結
★ 明實錄
★ 中國歷代人物傳記資料庫
★ 人名權威資料庫
★ 自動產生訓練資料
關鍵字(英) ★ Named Entity Linking
★ Ming Shilu
★ China Biographical Database Project
★ Ming Qing Biographical Database
★ Auto-generated Training Data
★ BERT model
論文目次 中文摘要 i
Abstract iii
誌謝 v
目錄 vii
圖目錄 ix
1 緒論 1
1.1 研究背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 研究動機與目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 章節概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 相關研究 5
2.1 命名實體識別 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 命名實體鏈結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 數位人文 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 模型 8
3.1 問題定義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 系統架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3 正規表達擷取器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.4 模版標註器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4.1 職官處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4.2 出處處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4.3 關連人處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4.4 時間處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4.5 同名同姓處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.5 BERT 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4 實驗方法與結果 19
4.1 資料描述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2 前處理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.3 參數說明 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.4 評估方式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.5 實驗結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5 歷史案例分析 26
5.1 兩個集團執掌兵權初步分析 . . . . . . . . . . . . . . . . . . . . . . . 28
5.2 兩個集團在軍政官之分析 . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.3 兩個集團在軍令官之分析 . . . . . . . . . . . . . . . . . . . . . . . . . 31
6 結論與展望 35
6.1 結論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.2 未來研究方向 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
參考文獻 37
指導教授 蔡宗翰(Tzung-Han Tsai) 審核日期 2021-1-26
