中大機構典藏-NCU Institutional Repository-提供博碩士論文、考古題、期刊論文、研究計畫等下載:Item 987654321/77381
English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 80990/80990 (100%)
造訪人次 : 41663076      線上人數 : 1866
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜尋範圍 查詢小技巧:
  • 您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
  • 若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
  • 進階搜尋


    請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/77381


    題名: 非監督式網頁資料擷取、轉置、載入與輸出系統;Web Data ETL System with Unsupervised Extraction
    作者: 周昱安;Chou, Yu-An
    貢獻者: 軟體工程研究所
    關鍵詞: 非監督式網頁資料擷取;自動化爬蟲;unsupervised web data extraction;automated crawler;ETL
    日期: 2018-08-20
    上傳時間: 2018-08-31 14:36:03 (UTC+8)
    出版者: 國立中央大學
    摘要: Web現今已成為人們獲取資訊最主要也最龐大的管道之一,尤其是深網資訊(Deep Web)擁有相當高的再利用的價值。而在網頁資料擷取(Web Data Extraction)的領域中,頁面層次(Page Level)相較於記錄層次(Record Level)的做法,能對相同樣版的網頁產生完整的頁面綱要,以涵蓋到整個頁面中所有資料的擷取需求,可以說是資料擷取較完整的解決方案。
    此外,大多網頁資料擷取的研究都只著重在資料擷取與綱要推導的演算法,而沒有進一步結合相關的資料轉置與輸出服務,來延伸其資料結果之應用。因此,本研究以非監督式網頁資料擷取系統為基礎,實作了自動化爬蟲的資料轉置控管系統。透過直覺易用的圖形介面操作與選取,讓使用者在不需撰寫程式情況下,也能夠進行自動化爬蟲並根據需求來調整與輸出資料結果(例如:API Endpoint、靜態匯出),實現資料擷取(Extract)、轉置(Transform)、載入(Load)的ETL服務。希望能夠將整個複雜的流程進行系統化的管理,並將這個領域的應用普及到一般使用者的層級。
    ;Web is the most important and primary way for fetching information nowadays, especially in deep web. In web data extraction, the page level approach compared with the record level approach is a more comprehensive solution because it can generate more complete page schema for extracting all the data of page.

    Otherwise, most research of web data extraction is focusing on algorithm of schema induction or extraction, instead of user-end service. Therefore, the research of this paper provide a ETL(extract-transform-load) system with automated crawler which base on unsupervised extraction. The users can extract and output (e.g. API endpoint, static export) web data by user-friend GUI, without any programming. Hoping the research can simplify the management of the entire complex process and bring convenience web data extraction to the general public.
    顯示於類別:[軟體工程研究所 ] 博碩士論文

    文件中的檔案:

    檔案 描述 大小格式瀏覽次數
    index.html0KbHTML286檢視/開啟


    在NCUIR中所有的資料項目都受到原著作權保護.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明