姓名 劉榮修(Jung-Hsiu Liu)  查詢紙本館藏   畢業系所 資訊管理學系
論文名稱 一種網頁資訊擷取程式之自動化產生技術研發
(An automatic wrapper generation for web information extraction)
  1. 本電子論文使用權限為同意立即開放。
  2. 已達開放權限電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。
  3. 請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。

摘要(中) 網際網路是相當巨大資訊貯藏庫,蘊含著豐富的資料,其中有資訊檢索、資訊擷取、資訊整合、及資訊探勘等領域的研究。目前擷取網頁資訊的方式多是採用擷取程式(Wrapper),近年來也有相當多的研究針對產生擷取程式作設計與探討,本研究針對眾多的研究文獻將產生擷取程式的方法分成四類,自動分析學習、樣本歸納學習、手動式建立規則、與輔助式建立規則。不過各項研究各有優劣,綜合來看,常見的缺點有適用領域過小,需要建立樣本來作為學習的依據,或者是需要手動的方式來自行建立擷取規則。本研究的目的是為了解決上述的缺點,設計互動式的介面來自動產生擷取規則,以網頁標籤樹狀結構來表示各類網頁格式的資訊位置,以提高可適用的網頁格式範圍,另外提供直覺式的操作介面讓使用者完成擷取設定,更為輕鬆、簡便。最後本研究與同樣提供介面輔助的系統作評估,以說明本系統的設計功能更為強大,使用更為方便,也與WIEN系統比較,以驗證本系統的有效性與可用性。
摘要(英) WWW covers huge information. And web information extraction is an important issue in WWW. But we found some drawbacks to this issue from many researches. The drawbacks include less applicable domain, sample learning cost, and handcrafting rules. So we present an approach to generate wrappers for web information extraction. Our contribution are as follow: (1)developing interactive interface to generate extraction rules automatically without any samples; (2)the extraction rules can be applicable many kinds of web formats. The final, we measure some web sites to test the applicability of our wrapper generation system.
關鍵字(中) ★ 網頁資訊擷取
★ 擷取程式
★ 自動化產生技術
關鍵字(英) ★ wrapper
★ web information extraction
★ automatic generation
論文目次 目錄 III
圖目 VI
第一章 緒論 1
第一節 研究背景與動機 2
1.1.1 網際網路資訊豐富 2
1.1.2 擷取網頁資訊 3
第二節 研究目的 4
1.2.1 產生擷取規則自動化 5
1.2.2 網頁適用類型廣泛 5
1.2.3 操作方式簡便 5
第三節 系統設計方法 6
1.3.1 建立樹狀結構之方法 6
1.3.2 建構操作介面之方法 6
1.3.3 自動產生擷取規則之方法 7
第四節 研究成果 7
第五節 論文結構 8
第二章 相關研究 9
第一節 資訊擷取領域探討 9
2.1.1 資訊擷取 9
2.1.2 傳統資訊擷取之方法 10
2.1.3 傳統應用資訊擷取之文件類型 11
2.1.4 網頁資訊擷取 11
第二節 產生擷取程式之研究 12
2.2.1 自動分析學習類型 14
2.2.2 樣本歸納學習類型 15
2.2.3 手動式建立規則類型 20
2.2.4 輔助式建立規則類型 24
2.2.5 綜合比較 27
第三章 系統設計 30
第一節 研究架構概述 30
3.1.1 系統運作架構 31
3.1.2 研究設計運作流程 33
第二節 網頁標籤樹狀結構圖設計 34
3.2.1 定義樹狀結構 35
3.2.2 建立網頁標籤樹狀結構圖 36
第三節 樹狀結構再處理程序 38
3.3.1 HTML標籤分類 38
3.3.2 修剪樹狀結構 41
3.3.3 簡化樹狀結構 43
第四節 使用操作介面設計 46
3.4.1 由樹狀結構轉化為操作介面之設計方式 46
3.4.2 逐步縮小資訊範圍 48
3.4.3 資訊範圍之結構路徑位置 48
第五節 擷取規則設計 49
3.5.1 一般類資訊擷取規則 50
3.5.2 其他類資訊擷取規則 53
3.5.3 圖像卅超連結下載存檔之應用 59
3.5.4 多網頁資訊擷取之應用 60
第四章 系統設計實作 65
第一節 系統實作架構 65
4.1.1 系統架構模組 66
4.1.2 系統開發環境 67
第二節 產生擷取規則單元實作 68
4.2.1 網頁處理模組 68
4.2.2 選擇資訊擷取範圍模組 70
4.2.3 設定擷取條件模組 72
第三節 擷取程式單元實作 75
4.3.1 擷取工作模組 75
4.3.2 排程模組 77
4.3.3 資訊呈現模組 78
第五章 系統使用實例與評估 80
第一節 系統使用實例 80
5.1.1 表格類網頁擷取實例 80
5.1.2 其他類網頁擷取實例 84
5.1.3 多網頁資訊類型擷取實例 87
第二節 系統評估 89
5.2.1 與Bright之系統評估 90
5.2.2 與WIEN系統評估 92
5.2.3 實際網站測試評估 93
第六章 結論 97
第一節 研究結論 97
第二節 研究貢獻 98
第三節 未來研究方向 98
參考文獻 100
指導教授 陳奕明(Yi-Ming Chen) 審核日期 2002-7-11
