中大機構典藏-NCU Institutional Repository-提供博碩士論文、考古題、期刊論文、研究計畫等下載:Item 987654321/65790
English  |  正體中文  |  简体中文  |  全文笔数/总笔数 : 78852/78852 (100%)
造访人次 : 38024628      在线人数 : 2677
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜寻范围 查询小技巧:
  • 您可在西文检索词汇前后加上"双引号",以获取较精准的检索结果
  • 若欲以作者姓名搜寻,建议至进阶搜寻限定作者字段,可获得较完整数据
  • 进阶搜寻


    jsp.display-item.identifier=請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/65790


    题名: 應用動態編碼於多頁面網頁之記錄邊界偵測與資訊擷取;Exploiting Dynamic Encoding and Multiple Pages for Record Boundary Detection and Data Extraction
    作者: 陳明權;Chen,Ming-chuan
    贡献者: 資訊工程學系
    关键词: 記錄範圍偵測;動態編碼;資訊擷取
    日期: 2014-08-21
    上传时间: 2014-10-15 17:10:25 (UTC+8)
    出版者: 國立中央大學
    摘要: 記錄範圍偵測在擷取器推導(Wrapper Induction)中是一個很重要的環節,偵測的結果好壞會直接影響後續的排比以及最後的準確度。過去的方法多為在單一網頁中進行各個區塊相似度計算,擁有的資訊量較少,而使用樹狀結構的相似度計算也會造成計算量的上升。在本篇論文中我們參考來自同個網站的多個網頁,分析出各網頁中共同與差異的部分,克服單一網頁所缺乏的資訊;同時為減少多個網頁增加的計算量,系統分析的主要對象為DOM樹中的葉節點,其數量僅為所有節點的三成。藉由葉節點在多個網頁的分佈情形,本文提出動態編碼,對葉節點進行抽象化,用以突顯記錄的規律性,使得重複樣式探勘能得到較好的成效。最後對於記錄範圍的偵測,本文提出地標的概念,根據存在於各筆記錄中的地標,並藉由在樹狀結構中的走訪來推測相應的記錄範圍。在實驗與評估的部分,本篇論文使用了知名的資料集與過去幾個系統比較,皆能達到不錯的準確率。;Record boundary detection plays an important role in wrapper induction and the quality of record boundary detection will affect the precision of alignment and extraction directly. Previous approaches usually focus on calculating similarity between blocksor measure tree similarity in a single page.
    In this paper, we analyze multiple pages that are generated by the same website. By exploring common parts and different parts in pages, we can overcome the weakness in single-page approaches. Because the computation load will increase when we deal with more pages, the proposed approach only focus on leaf nodes in DOM tree, which are about 30 percent of all nodes. We propose dynamic encoding, which can abstract leaf nodes and emphasize the regularity of every data records. With the dynamic encoding, we reduce the numberof the repeated pattern discovered. Finally, we propose the idea of landmark, which is located in the data record, and detecting the record boundary by segmenting the DOM tree. In the experiment, we evaluate the efficiencyin our approach and compare the effectivenesswith other systems.
    显示于类别:[資訊工程研究所] 博碩士論文

    文件中的档案:

    档案 描述 大小格式浏览次数
    index.html0KbHTML323检视/开启


    在NCUIR中所有的数据项都受到原著作权保护.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明