中大機構典藏-NCU Institutional Repository-提供博碩士論文、考古題、期刊論文、研究計畫等下載:Item 987654321/8911
English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 80990/80990 (100%)
造訪人次 : 41659481      線上人數 : 1898
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜尋範圍 查詢小技巧:
  • 您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
  • 若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
  • 進階搜尋


    請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/8911


    題名: 淨化網頁:網頁區塊化以及資料區域擷取;Web Cleaning:Page Segmentation and Data-rich Section Mining
    作者: 李泓儒;Hong-Ru Lee
    貢獻者: 資訊工程研究所
    關鍵詞: 網頁區塊化;資料區域;page segmentation;data-rich section
    日期: 2004-07-09
    上傳時間: 2009-09-22 11:37:32 (UTC+8)
    出版者: 國立中央大學圖書館
    摘要: 網頁是呈現線上龐大資料庫最主要的方式,內容包含許多資訊,除了本身想顯示的主要資料區域之外,還加上其他許多部份,例如:導覽連結、廣告、裝飾的圖文、著作權聲明…等等。每個部份都有各自分別的功能,把整個網頁分成很多獨立功能的小單元區塊,這些小單元區塊將可以應用在許多方面,例如:網路傳輸、儲存,PDA、手機上的瀏覽…等。 大多數使用者感興趣的部份,可能只有表達網頁真正內容的資料區域,其它部份雖然有助於使用者瀏覽更方便,但是卻對電腦程式來說卻非常難去處理,例如:網頁資訊的資訊檢索(Information Retrieval)、資訊擷取(Information Extraction)、分類(Classification)、分群(Clustering),都會因為整個網頁內容不只有單一個主題目的,而造成這些研究上處理的困難。 本篇論文提出一個有效的方法,PSDSM演算法,可以將整個網頁分割成很多具有單一功能、獨立存在的小區塊,然後在這些區塊當中,找出表達網頁真正內容的資料區域;主要分成兩個方面,第一、網頁區塊化:利用網頁重複性的結構,將內容相近的部份歸為同一區塊;第二、資料區域擷取:藉由比較兩個網頁對應區塊的內容,決定哪一個區塊是資料區塊。 實驗結果顯示,在許多不同型態的網站,利用本篇論文的方法擷取出的資料區域,幾乎完美的接近使用者感興趣的真正內容;另外,將之應用於網頁資訊擷取系統 – IEPAD,以及網頁分類,結果顯示,擷取出的資料區域,對於這兩方面的研究都有不錯的幫助;最後,比較資料區域與整個網頁的資料量,對於某些網站,資料量減少的程度高達75%,對於網路傳輸將可以有不錯的助益。 Web Page is the major manner to present huge online data. A web page often contains many segments, including main actual content in this page (we called “data-rich section”), navigational bar, advertisements, copyright and privacy notices, and unnecessary images and extraneous links for decoration. Each segment has its useful function. Dividing web pages into many independent segments has many applications. For example, network caching, cell phone and PDA browsing. Many people only interest in main content (data-rich section) of the page, other segment can benefit human browsing, but these “human-oriented” segments are difficult for computer programs to parse. Due to these segments contain not only one purpose, they can seriously harm web data mining. We propose an PSDSM algorithm to segment web page into many single purpose、independent blocks and identify Data-rich Section. Our approach has two aspects. First, we use repeated structures of a web page to segment web page. Second, we identify Data-rich section by block comparison. Experimental results show that data-rich section mining by our PSDSM algorithm almost match the actual content of user interesting. Furthermore, it also benefit in web informational extraction – IEPAD and web page classification. Data-rich section can effectively reduce size of whole web page thereby improving network issues.
    顯示於類別:[資訊工程研究所] 博碩士論文

    文件中的檔案:

    檔案 大小格式瀏覽次數


    在NCUIR中所有的資料項目都受到原著作權保護.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明