關聯性字組在文件摘要上的探討

以作者查詢圖書館館藏

、以作者查詢臺灣博碩士

、以作者查詢全國書目

、勘誤回報

、線上人數：45

、訪客IP：18.119.134.171

姓名

林志龍(Chih-Lung Lin) 查詢紙本館藏

畢業系所

資訊工程學系

論文名稱

關聯性字組在文件摘要上的探討
(Mining Association Words for Document Summarization)

相關論文

★ 行程邀約郵件的辨識與不規則時間擷取之研究	★ NCUFree校園無線網路平台設計及應用服務開發
★ 網際網路半結構性資料擷取系統之設計與實作	★ 非簡單瀏覽路徑之探勘與應用
★ 遞增資料關聯式規則探勘之改進	★ 應用卡方獨立性檢定於關連式分類問題
★ 中文資料擷取系統之設計與研究	★ 非數值型資料視覺化與兼具主客觀的分群
★ 淨化網頁：網頁區塊化以及資料區域擷取	★ 問題答覆系統使用語句分類排序方式之設計與研究
★ 時序資料庫中緊密頻繁連續事件型樣之有效探勘	★ 星狀座標之軸排列於群聚視覺化之應用
★ 由瀏覽歷程自動產生網頁抓取程式之研究	★ 動態網頁之樣版與資料分析研究
★ 同性質網頁資料整合之自動化研究	★ 時序性資料庫中未知週期之非同步週期性樣板的探勘

檔案

[Endnote RIS 格式]

[Bibtex 格式]

[相關文章]

[文章引用]

[完整記錄]

[館藏目錄]

[檢視]

[下載]

本電子論文使用權限為同意立即開放。
已達開放權限電子全文僅授權使用者為學術研究之目的，進行個人非營利性質之檢索、閱讀、列印。
請遵守中華民國著作權法之相關規定，切勿任意重製、散佈、改作、轉貼、播送，以免觸法。

摘要(中)

文件摘要是文件處理中重要的技術，可視為一種文件壓縮，主要目的在挑選合適字句當成摘要內容，大致上可分為兩類：針對單一文件或多份文件，單一文件的摘要方法大都使用分析文件意義與結構的方式，至於多份文件的摘要則大都使用叢聚的技術找出重要的共同部分，本研究採用最大頻繁序列的概念對大量文件找出其重要的部分，接著再利用它做文件摘要，此外文件摘要中一直存在的問題在於如何評量摘要結果，由於個人的主觀要素，很難有客觀的評量方法，針對此點，本篇論文採用文件分類的方式來評估摘要結果，提供了一個較客觀且快速的做法。
本研究的文件摘要方法其架構可分為幾個步驟，首先利用分群的技術將整個文件集合分成幾個較小的集合，如此可避免直接由一大群集合中尋找最大頻繁字組時所遇到最小門檻值過低的問題，接著分別對這些集合擷取關聯性字組，當成文件中重要的部分，然後搭配這些關聯性字組和一些計分的方法決定將哪些句子當成摘要結果，實驗結果顯示摘要的內容確實保留了文件中重要的部分。

關鍵字(中)

★ 關聯性字組
★ 文件摘要

關鍵字(英)

★ document summarization
★ text summarization

論文目次

第1章緒論 1
1.1 研究動機 1
1.2 研究目的 2
1.2.1 Text Mining 3
1.3 論文架構 4
第2章相關研究 5
2.1 單一文件的摘要系統 (SUMMARIST) 6
2.2 多份文件的摘要系統 7
2.3 評估摘要的方法 11
第3章系統架構 13
3.1 前置處理 13
3.2 叢聚 14
3.3 Mining 16
3.4 產生摘要 17
第4章實驗與討論 19
4.1 實驗資料 19
4.2 實驗方法 19
4.3 實驗評估 20
4.4 實驗結果 20
第5章結論 25
參考文獻 26

參考文獻

[1] Helena Ahonen-Myka. Finding All Maximal Frequent Sequences in Text. International Conference on Machine Learning (ICML) 1997 p3
[2] Helena Ahonen-Myka. Finding Co-occurring Text Phrases by Combining Sequence and Frequent Set Discovery. International Joint Conference on Artificial Intelligence (IJCAI) 1999. p3
[3] Martin Rajman, Romaric Besancon. Text Mining- Knowledge extraction from unstructed textual data. 1998. p3
[4] Luhn, H.P. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development 2 1969. p5
[5] Eduard Hovy, Chin-Yew Lin. Automated Text Summarization in SUMMARIST. P6
[6] Daniel Marcu, Laurie Gerber. An Inquiry into the Nature of Multidocument Abstracts, Extracts, and Their Evaluation. 2001 p7
[7] Chin-Yew Lin, Eduard Hovy. From Single to Multi-document Summarization: A Prototype System and its Evaluation. ACL2002 p8
[8] S.M. Harabagiu, S. J.Maiorano. Multi-Document Summarization with GISTEXTER. P9
[9] Naomi Daniel, Dragomir Radev, Timothy Allison. Sub-event based multi-document summarization. DUC 2003 p10
[10] Hongyan Jing, Regina Barzilay, Kathleen McKeown, Michael Elhadad. Summarization Evaluation Methods：Experiments and Analysis. P11
[11] Inderjeet Mani. Recent Developments in Text Summarization.
[12] Satoshi Sekine, Chikashi Nobata. A Survey for Multi-Document Summarization. HLT-NAACL 2003 Workshop.
[13] Kathleen McKeown. The Columbia Multi-Document Summarizer for DUC. 2002
[14] Ken Barker, Yllias Chali, Terry Copeck, Stan Matwin, Stan Szpakowicz. The Design of a Configurable Text Summarization System. 1998
[15] Jade Goldstein, Vibhu Mittal, Jaime Carbonell, Mark Kantrowitz. Multi-Document Summarization By Sentence Extraction.
[16] Mann, W., and Thompson, S. Rhetorical Structure Theory: Toward a Functional Theory of Text Organization. 1988. p5
[17] Dragomir R. Radev, Hongyan Jing, Malgorzata Budzikowska. Centroid-based Summarization of Multiple Documents: Sentence Extraction, Utility-based evaluation, and User Studies. ANLP/NAACL Workshop 2000. p5

指導教授

張嘉惠(Chia-Hui Chang)

審核日期

2003-7-18

推文