姓名 詹欣逸(Hsin-Yi Chan) 畢業系所 資訊管理學系
論文名稱 利用WordNet 判斷字詞包含關係─ 應用於動態階層文件分群
(Using WordNet to Infer Containment Relationship─ Applied to Dynamic Hierarchical Clustering)
摘要(中) 資訊爆炸的現在及未來,不管企業或個人都需要方法有效組織資訊。本研究目標
在於將文件動態進行階層分群,以便使用者整理、瀏覽及搜尋日積月累的海量資訊。其做法結合了分群、分類及分類學。本研究以Dynamic Hierarchical Clustering Based on Taxonomy (DHCT) 之動態分群架構為基礎去改善內部方法。其中我們改變了文件相似度的計算以降低分群複雜度,而分類學方面本研究提出以WordNet 中兩字詞路徑來判斷包含關係的方法,透過使用MeSH_2011 資料集的實驗證明能有效建立分類學,以分類學為基礎的做法則能成功建立上下包含的階層分群目錄標籤,解決階層分群無法產生有意義標籤之瓶頸。此外本研究改善DHCT 所提出推論字詞包含關係之Conditional Probability (CP) 計算,發現加入適當標籤確實能幫助CP 正確推論有一字多義的字詞之包含關係,而結合WordNet 及Google 建置分類學的做法不僅提高整體正確率,更能突破WordNet 本身字詞不足之限制。DHCT 已解決文獻中面臨的許多問題並證實優於傳統的UPGMA 及BKM 階層分群法,經過本研究的改良更將分群複雜度由O(nm2)降至O(nm),並透過使用Wikipedia 資料集的實驗證明能改善DHCT 約20%的F1Score,產生更正確、更能幫助使用者瀏覽之階層分群結構。
摘要(英) The number of text document managed in business and personal computer continues to grow at an amazing speed. We need an efficient way to organize, manage, access, search and browse such large repositories of documents. One of the popular techniques is dynamic hierarchical clustering, which is our focus. This study improves the taxonomy method in Dynamic Hierarchical Clustering Based on Taxonomy (DHCT), and our framework is mainly based on it, which combines the techniques of clustering, classification, and taxonomy. In order to reduce the time complexity, we use Ward’s minimum variance and NGD to calculate document similarity. We also proposed two methods to infer containment relationships between terms for building taxonomy. One is called CR, which makes use of term paths in the WordNet. Another called CP+Label, which improves the Conditional Probability (CP) (proposed by DHCT) by adding an appropriate label when the term is polysemy. These taxonomies are later used as the cluster label to let users easier to browse and search. DHCT had been proved that it is better than the traditional method: UPGMA and BKM, and our experiment results on MeSH_2011 show that both methods we proposed are suitable for producing a meaningful taxonomy and are better than DHCT as well. Moreover, by merging the taxonomies constructed by WordNet and Google, our method not only improves about 20% of the overall F1 score on Wikipedia text collection, but also breaks through the limits while using the WordNet.
關鍵字(中) ★ 字詞包含關係
★ 動態分群
★ 分類學
★ 階層分群
關鍵字(英) ★ WordNet
★ Containment relationship
★ Taxonomy
★ Dynamic clustering
★ Hierarchical clustering
目 錄
第一章 緒論 1
1-1 研究背景 1
1-2 研究動機 2
1-3 研究目的 3
1-4 研究方法 3
1-5 論文架構 4
第二章 文獻探討 5
2-1 特徵選取 6
2-1-1 正規化谷歌距離 (Normalized Google Distance) 6
2-1-2 以WordNet 為基礎之特徵選取 (WN-based feature selection) 7
2-2 文件分群 8
2-2-1 硬式及軟式分群 (Hard and Soft Clustering) 8
2-2-2 靜態及動態分群 (Static and Dynamic Clustering) 9
2-2-3 扁平及階層分群 (Flat and Hierarchical Clustering) 9
2-2-4 小結 11
2-3 分類學 12
2-3-1 詞彙句法樣式法 (Lexical-Syntactic Patterns)13
2-3-2 自然語言處理法 (Natural Language Processing Approach) 13
2-3-3 機器可讀字典法 (Machine-readable Dictionaries)14
2-3-4 資訊理論法 (Information Theory)15
2-3-5 小結 15
2-4 WordNet 16
2-4-1 WordNet 架構 (Structure of WordNet) 17
2-4-2 WordNet 相關度 (Measure Relatedness in WordNet) 18
2-4-3 WordNet 的限制 (Limitations of WordNet) 19
第三章 系統架構與流程 20
3-1 系統架構 20
3-2 資料前處理 21
3-3 文件概念分群 21
3-3-1 更新β相似圖 (Updated Beta-similarity Graph) 21
3-3-2 保留最大連線及判斷群集 (Max-S Graph and Star Cover) 22
3-4 建置分類學 23
3-4-1 決定標籤及詞義 (Label and Sense Generation) 24
3-4-2 推論字詞包含關係 (Subsumption Probability Calculate) 27
3-4-3 決定字詞樹根 (BTRank) 33
3-4-4 合併字詞分類學 (Tagtree Merge) 34
3-5 文件階層分群 35
第四章 實驗結果與討論 36
4-1 資料集介紹 36
4-1-1 MeSH (Medical Subject Headings) 36
4-1-2 維基百科 (Wikipedia) 38
4-1-3 資料集與實驗的對應 39
4-2 評估方法 40
4-3 實驗環境 41
4-4 文件概念分群實驗結果 42
4-5 建置分類學實驗結果 43
4-5-1 包含關係CR 門檻值的設定 43
4-5-2 包含關係CR 的正確性 44
4-5-3 包含關係CP+Label 的正確性 46
4-5-4 建置分類學的方法及品質比較 48
4-6 文件階層分群實驗結果 50
4-7 階層結構分析 50
4-7 系統效能分析 52
第五章 結論與未來研究方向 53
5-1 結論 53
5-2 管理意涵 55
5-3 未來研究方向 55
參考文獻
指導教授 林熙禎(Shi-Jen Lin) 審核日期 2013-7-24
