English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 78818/78818 (100%)
造訪人次 : 34730414      線上人數 : 971
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜尋範圍 查詢小技巧:
  • 您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
  • 若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
  • 進階搜尋


    請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/59234


    題名: 基於CSP與最佳狀態序列之擷取程式驗證;Template and Schema Guided Wrapper Verification based on CSP and Best State Sequence
    作者: 林冠辰;Lin,Kuan-Chen
    貢獻者: 資訊工程學系在職專班
    關鍵詞: 擷取程式驗證;有限狀態機;網頁資料擷取;限制滿足問題;Constraint Satisfaction Problems;Finite State Machine;web data extraction;wrapper verification
    日期: 2013-01-29
    上傳時間: 2013-03-25 16:16:52 (UTC+8)
    出版者: 國立中央大學
    摘要: 這是資訊爆炸的時代,幾乎任何資訊都可透過網路取得,因此近期網頁資料擷取領域,相繼有許多研究提出各種的非監督式擷取方法,能夠快速有效擷取資料進行後續加值應用。但是網路環境快速變動的特定,也讓非監督式擷取程式面臨挑戰。非監督式擷取程式在產生擷取規則時,需要相當複雜計算,需要耗費相當的時間,不可能每次擷取資料都重新產生新的擷取規則,因此擷取程式後續驗證與維護機制必然越來越重要。擷取程式會解析網頁內容,產生網頁模板(Template)與資料結構(Schema)來擷取資料。擷取程式驗證機制主要目的是確保時間點t產生的模板(Template)與資料結構結構(Schema)仍能適用於時間點t’的資料擷取。在網頁XML DOM樹狀結構中,資料內容是存在於葉節點位置,因此可運用有限狀態機模型檢測網頁葉節點轉換規律是否與時間點t的網頁模板(Template)與資料結構(Schema)一致。本論文嘗試簡化建立有限狀態機模型過程,使其更為快速有效,並以CSP快速刪減候選狀態節點的數量,加速模型驗證效率,並搭配狀態的序列組合(Sequence Probability)來檢測網頁模板(Template)與資料結構結構(Schema)有效性,以實驗測試其效率及有效性。Wrapper induction is a complex process that takes a considerable amount of time. However, data extraction that requires constant wrapper induction is inefficient for a more sophisticated Web site design. Therefore, wrapper verification and its maintenance are becoming two of a few major subjects for research. This paper focuses on wrapper verification of unsupervised information extraction. The researcher uses the leaf nodes of the dom tree as the source of transformation and obtains a FSM (Finite State Machine) for schema verification. If the new page could pass the verification, it would be considered a simultaneous data layout.This paper attempts to simplify the process of creating the finite state machine model, and proposes Schema Guided Wrapper Verification based on CSP (Constraint Satisfaction Problems) to reduce the number of candidate states to accelerate validation efficiency. The approach this study proposes not only improves validation efficiency, but also finds a better Best State Sequence to improve the accuracy of data extraction.
    顯示於類別:[資訊工程學系碩士在職專班 ] 博碩士論文

    文件中的檔案:

    檔案 描述 大小格式瀏覽次數
    index.html0KbHTML767檢視/開啟


    在NCUIR中所有的資料項目都受到原著作權保護.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明