中大機構典藏-NCU Institutional Repository-提供博碩士論文、考古題、期刊論文、研究計畫等下載:Item 987654321/12952
English  |  正體中文  |  简体中文  |  全文笔数/总笔数 : 80990/80990 (100%)
造访人次 : 41649788      在线人数 : 1417
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜寻范围 查询小技巧:
  • 您可在西文检索词汇前后加上"双引号",以获取较精准的检索结果
  • 若欲以作者姓名搜寻,建议至进阶搜寻限定作者字段,可获得较完整数据
  • 进阶搜寻


    jsp.display-item.identifier=請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/12952


    题名: 一種網頁資訊擷取程式之自動化產生技術研發;An automatic wrapper generation for web information extraction
    作者: 劉榮修;Jung-Hsiu Liu
    贡献者: 資訊管理研究所
    关键词: 網頁資訊擷取;擷取程式;自動化產生技術;wrapper;web information extraction;automatic generation
    日期: 2002-06-21
    上传时间: 2009-09-22 15:19:54 (UTC+8)
    出版者: 國立中央大學圖書館
    摘要: 網際網路是相當巨大資訊貯藏庫,蘊含著豐富的資料,其中有資訊檢索、資訊擷取、資訊整合、及資訊探勘等領域的研究。目前擷取網頁資訊的方式多是採用擷取程式(Wrapper),近年來也有相當多的研究針對產生擷取程式作設計與探討,本研究針對眾多的研究文獻將產生擷取程式的方法分成四類,自動分析學習、樣本歸納學習、手動式建立規則、與輔助式建立規則。不過各項研究各有優劣,綜合來看,常見的缺點有適用領域過小,需要建立樣本來作為學習的依據,或者是需要手動的方式來自行建立擷取規則。本研究的目的是為了解決上述的缺點,設計互動式的介面來自動產生擷取規則,以網頁標籤樹狀結構來表示各類網頁格式的資訊位置,以提高可適用的網頁格式範圍,另外提供直覺式的操作介面讓使用者完成擷取設定,更為輕鬆、簡便。最後本研究與同樣提供介面輔助的系統作評估,以說明本系統的設計功能更為強大,使用更為方便,也與WIEN系統比較,以驗證本系統的有效性與可用性。 WWW covers huge information. And web information extraction is an important issue in WWW. But we found some drawbacks to this issue from many researches. The drawbacks include less applicable domain, sample learning cost, and handcrafting rules. So we present an approach to generate wrappers for web information extraction. Our contribution are as follow: (1)developing interactive interface to generate extraction rules automatically without any samples; (2)the extraction rules can be applicable many kinds of web formats. The final, we measure some web sites to test the applicability of our wrapper generation system.
    显示于类别:[資訊管理研究所] 博碩士論文

    文件中的档案:

    档案 大小格式浏览次数


    在NCUIR中所有的数据项都受到原著作权保护.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明