English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 80990/80990 (100%)
造訪人次 : 43141766      線上人數 : 819
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜尋範圍 查詢小技巧:
  • 您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
  • 若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
  • 進階搜尋


    請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/8781


    題名: 線上擷取規則分析;On-Line Extraction Rule Analysis
    作者: 郭釋謙;Shih-Chien Kuo
    貢獻者: 資訊工程研究所
    關鍵詞: 資訊整合;資料檢索;資訊擷取;Information Integration;Information Extraction;Information Retrieval
    日期: 2003-06-25
    上傳時間: 2009-09-22 11:34:42 (UTC+8)
    出版者: 國立中央大學圖書館
    摘要: 隨著網際網路的發展,越來越多的資訊以HTML的格式來呈現,有用與無用的資訊參雜其中,使用者往往可能花上大筆的時間在找尋資料,因此,透過資訊擷取系統的設計,將輸入的資料以結構化的方式呈現,進而整合資料,建構豐富的搜尋引擎。 設計資訊擷取系統,最直接的方法是針對各個網站利用人工撰寫擷取資料的包覆程式(Wrapper),但是由於網站的格式隨時有可能發生更改,因此如何快速並且自動地產生擷取程式是設計擷取系統最大的挑戰。 從1997年開始,Wrapper Induction的方法被提出,利用標示範例網頁,告訴系統要擷取的資訊,讓系統產生擷取規則,接著利用擷取規則來擷取網站的資訊。這類利用標示範例網頁的方式,雖然有不錯的擷取率,但是必須經過十分繁複的標示動作,才能產生擷取規則,因此對使用者來說,並不是那麼的便利,因此減少使用者標示的資訊擷取系統是系統設計的一大挑戰,目前不用使用者標示的系統如IEPAD等僅能解決多筆紀錄的網頁,對於單一紀錄網頁尚無解決辦法,有鑑於此,本篇論文提出一個有效的方法來完成自動化的資訊擷取系統(Information Extraction System),讓使用者不必經過繁複的標示動作便可將資料完整的擷取到手,同時解決單一記錄以及多筆記錄的網頁擷取問題。 The vast amount of online information available has led to renewed interest in information extraction (IE) systems that analyze input documents to produce a structured representation of selected information from the documents. However, the design of an IE system differs greatly according to its input: from unrestricted free-text to semi-structured Web documents. This paper extends an automatic pattern discovery approach called IEPAD to the rapid generation of IE systems that can extract structured data from semi-structured Web documents. In this novel framework, extraction rules can be trained not only from a multiple-record Web page but also from multiple single-record Web pages (called singular pages). Most of all, this framework requires no annotation labor that is required for many machine-learning based approaches. Evaluation results show a high level of system performance.
    顯示於類別:[資訊工程研究所] 博碩士論文

    文件中的檔案:

    檔案 大小格式瀏覽次數


    在NCUIR中所有的資料項目都受到原著作權保護.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明