English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 80990/80990 (100%)
造訪人次 : 42119674      線上人數 : 1519
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜尋範圍 查詢小技巧:
  • 您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
  • 若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
  • 進階搜尋


    請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/8535


    題名: 網際網路半結構性資料擷取系統之設計與實作;Design and Implementation of the wrapper generation system for Web-based Information Extraction
    作者: 呂紹誠;Shao-Chen Lui
    貢獻者: 資訊工程研究所
    關鍵詞: 半結構性資料;資訊整合;包覆程式;資訊擷取;網頁擷取;Information Integration;wrapper;Information Extraction;Semistructured Data;IEPAD
    日期: 2001-07-05
    上傳時間: 2009-09-22 11:29:36 (UTC+8)
    出版者: 國立中央大學圖書館
    摘要: 網際網路的快速發展,已經改變了人類日常處理資訊的習慣,愈來愈多的資料是以HTML文件的格式呈現在WWW 上,如果可以將來自各個網站的資訊加以收集及分析,這些資訊便可以更有效地被利用,也就是所謂的『資訊整合』。而資訊整合系統,必須透過系統本體與資料源中間的包覆程式(Wrapper)來存取資料源。為解決各個資料源之間的差異,這些包覆程式經常是根據個別資料源的特性,以人工方式撰寫而成,然而網站的更新頻率快,人工撰寫的包覆程式必需花費大量人力及時間來維護及更新其包覆程式,因而許多的研究人員正積極發展各種可行的方法,來研發出可以自動建構出包覆程式的工具。 過去針對自動產生包覆程式的相關研究中,最主要是利用Wrapper Induction的方式來產生擷取規則,例如:WIEN、 STALKER、SoftMealy等等,效果非常出色,但美中不足的是,使用者必須先標示範例網頁上的資料,經過程式分析後才能得到擷取規則。而在本篇論文中,我們提供一個方法,可以自動化分析網頁的產生擷取規則。我們提出的系統IEPAD (Information Extraction based on Pattern Discovery),便是利用自動化分析網頁的方法,使一個網站的包覆程式可以很簡單且快速地被建構。IEPAD包含三個部分,分別為:規則產生器、規則觀察工具以及擷取器,規則產生器運用了重覆的規則探勘及多重序列對齊等技巧,可以自動產生擷取每筆記錄的擷取規則,使用者可再利用規則觀察工具選取規則,透過多層式的分析,提供分析結果,讓使用者勾選所需要的屬性,進而產生擷取規則,最後搭配擷取器,便能擷取出每筆記錄範圍?的屬性資料。在實驗結果方面,針對14個著名的搜尋網站,IEPAD可以達到97%的高擷取率。 Information extraction (IE) from semi-structured Web documents is a critical issue for information integration systems on the Internet. Since building Wrappers by hand is tedious and error-prone, the research in this field emphasizes the automatic generation of wrappers that can extract particular information from semi-structured Web documents. Previous work aims to learn extraction rules from users’ training example. They solve this problem by labeled training pages and grammar induction to automatically generate extraction rules. For example, WIEN, STALKER, and SoftMealy etc.. However, this approach still requires human intervention to provide training examples. In this paper, we propose IEPAD, a system that automatically discover extraction rules from Web pages. IEPAD includes three components, an extraction rule generator which accepts an input Web page, a graphical user interface, called rule viewer, which shows record patterns discovered, and an extractor module which extracts desired information form similar Web pages according to the extraction rule chosen by the user. The system can automatically identify record boundary by pattern mining and multiple sequence alignment. Furthernore, attribute values can be extract by multi-level extraction. This new track to IE takes less human effort than other approach and involves no content-dependent heuristics. Experimental result shows that the constructed extraction rules can achieve 97 percent extraction over fourteen popular search engines.
    顯示於類別:[資訊工程研究所] 博碩士論文

    文件中的檔案:

    檔案 大小格式瀏覽次數


    在NCUIR中所有的資料項目都受到原著作權保護.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明