DC 欄位 |
值 |
語言 |
DC.contributor | 資訊工程學系 | zh_TW |
DC.creator | 李季壕 | zh_TW |
DC.creator | Ji-Hao Li | en_US |
dc.date.accessioned | 2005-7-13T07:39:07Z | |
dc.date.available | 2005-7-13T07:39:07Z | |
dc.date.issued | 2005 | |
dc.identifier.uri | http://ir.lib.ncu.edu.tw:444/thesis/view_etd.asp?URN=92522046 | |
dc.contributor.department | 資訊工程學系 | zh_TW |
DC.description | 國立中央大學 | zh_TW |
DC.description | National Central University | en_US |
dc.description.abstract | 由於網際網路WWW的迅速發展,所以現有愈來愈多企業及一般網路使用者等都會透過Web來呈現他們的訊息或資料;而網路服務(Web Services)的盛行如網路書店、網路購物、入口網站等諸多服務更是帶動了網路使用爆發性的成長,而這些的類型網站通常會提供了一個搜索介面來便利使用者進行資料的查詢,例如透過一個CGI程式來進行該網站的資料庫搜索,並將與使用者查詢相關的資料嵌入到一個固定的網頁樣版中(Template)後呈現該網頁給使用者觀看,而此方式所產生的網頁我們稱之為動態網頁(Dynamic HTML)。從這些網頁中,我們不難地可以觀察到:這些網頁往往夾雜了多種不同來源的廣告或是不相關於使用者查詢的資訊;為了過濾這些雜訊以及資料收集的簡便,於是便有資料擷取(Information Extraction)研究因應而生,希望透過資料擷取系統來減少資料收集工作的瑣事。而此種系統對於資訊整合的工作者來說甚為重要,因為欲對不同網站上的進行資料整合工作時,他必須需要先手動地將不同網站的資料內容ㄧㄧ擷取出來,並將該資料存到Excel或是資料庫中後,才可進行後端的資訊整合步驟(Information Integration),以提供一套整合性的網路服務或資料分析。但是由於網站開發者常常會因為需求的變更,而對於其網站進行若干的修改,造成原本已整合完成的工作得重新進行擷取分析、並整合等複雜的重複工作。
有鑑於此,近來有許多自動化的網頁擷取系統被廣泛的討論,它們從一群網站所收集回來的動態網頁中,透過網頁之間的比對來產生該網站動態網頁資料的擷取模組,稱之為Wrapper,並且利用該模組來進行該網站的動態網頁資料擷取;而此擷取模式不僅簡便了網路資訊整合者的工作,更可以加速處理於不同類型的網站整合工作使用。 | zh_TW |
DC.subject | 動態網頁 | zh_TW |
DC.subject | 樣版 | zh_TW |
DC.subject | 等價類 | zh_TW |
DC.subject | dToken | en_US |
DC.subject | equivalence class | en_US |
DC.subject | EXALG | en_US |
DC.title | 動態網頁之樣版與資料分析研究 | zh_TW |
dc.language.iso | zh-TW | zh-TW |
DC.title | Differentiating Templates and Data Values from Semi-Structured Web Pages | en_US |
DC.type | 博碩士論文 | zh_TW |
DC.type | thesis | en_US |
DC.publisher | National Central University | en_US |