由瀏覽歷程自動產生網頁抓取程式之研究; Generation of Web page Fetchers from Navigation Records

NCU Institutional Repository > 資訊電機學院 > 資訊工程研究所 > 博碩士論文 > Item 987654321/9031

jsp.display-item.identifier=請使用永久網址來引用或連結此文件: https://ir.lib.ncu.edu.tw/handle/987654321/9031

题名:	由瀏覽歷程自動產生網頁抓取程式之研究;Generation of Web page Fetchers from Navigation Records
作者:	張立帆;Li-fang Chang
贡献者:	資訊工程研究所
关键词:	瀏覽歷程;網頁抓取;Web page Fetcher;Navigation Record
日期:	2005-07-07
上传时间:	2009-09-22 11:39:48 (UTC+8)
出版者:	國立中央大學圖書館
摘要:	全球資訊網(World Wide Web)在資訊爆炸的今天，充斥著各式各樣數量難以估算的資料，能夠快速有效的擷取與整合這些資料成為有用的資訊或知識，是近年來很熱門的課題，由於目前全球資訊網上流通的多為HTML文件，為提供使用者瀏覽而設計的半結構化語言，不利於分析和比較的應用，若能將HTML的網頁資料透過資訊整合，由資訊擷取技術將網頁轉為結構化的資料，以統一的資料庫或XML文件型式儲存，對於資訊的應用有很大的幫助，例如購物網站的比價分析、新聞資料的收集…等，而如何將全球資訊網上的HTML網頁文件加以過濾、收集、擷取與整合是近年來相當重要的研究。本篇論文將資訊擷取技術的研究，區分為網頁抓取與資料擷取兩種技術，而資料擷取技術，已經進行相當長的一段時間，而監督式與非監督式資料擷取系統，對網頁資料的擷取都有很大的貢獻，然而，大多數的研究重視如何從網頁中擷取出資料，缺少了抓取需要擷取網頁的研究。因為需要進行擷取的網頁是相當多的，一頁一頁的手動抓取是沒有效率的，而且大多數的網頁都是以相同網頁樣板所產生，在瀏覽或抓取這些網頁時，都會進行相同的重覆動作，因此，有一些研究讓使用者自行建立抓取網頁的瀏覽模型，幫助使用者抓取網頁，但是需要使用者先學習系統所定義的瀏覽模型，對使用者而言是較不自然的作法。本篇論文所提出的網頁抓取系統，系統是以IE瀏覽器提供瀏覽網頁的環境，讓使用者以平時瀏覽網頁的方式，瀏覽過部分需要抓取的網頁，系統則記錄瀏覽過的網頁和瀏覽動作，透過瀏覽的歷程，建立使用者瀏覽網頁的模型，並以執行器抓取所需的網頁。此外，由於網頁中可能存有Client-side程式，執行器在抓取網頁時，也是以IE瀏覽器模擬使用者瀏覽網頁的過程來抓取網頁，讓抓取網頁時，同時執行網頁中的Client-side程式。
显示于类别:	[資訊工程研究所] 博碩士論文

文件中的档案:

档案	描述	大小	格式	浏览次数
index.html		0Kb	HTML	841	检视/开启

在NCUIR中所有的数据项都受到原著作权保护.

社群 sharing

数据加载中.....