博碩士論文 103522034 詳細資訊




以作者查詢圖書館館藏 以作者查詢臺灣博碩士 以作者查詢全國書目 勘誤回報 、線上人數:6 、訪客IP:44.210.85.190
姓名 張弘暐(Hung-Wei Chang)  查詢紙本館藏   畢業系所 資訊工程學系
論文名稱
(Active Learning for Incremental POI Extraction and Pairing)
相關論文
★ 行程邀約郵件的辨識與不規則時間擷取之研究★ NCUFree校園無線網路平台設計及應用服務開發
★ 網際網路半結構性資料擷取系統之設計與實作★ 非簡單瀏覽路徑之探勘與應用
★ 遞增資料關聯式規則探勘之改進★ 應用卡方獨立性檢定於關連式分類問題
★ 中文資料擷取系統之設計與研究★ 非數值型資料視覺化與兼具主客觀的分群
★ 關聯性字組在文件摘要上的探討★ 淨化網頁:網頁區塊化以及資料區域擷取
★ 問題答覆系統使用語句分類排序方式之設計與研究★ 時序資料庫中緊密頻繁連續事件型樣之有效探勘
★ 星狀座標之軸排列於群聚視覺化之應用★ 由瀏覽歷程自動產生網頁抓取程式之研究
★ 動態網頁之樣版與資料分析研究★ 同性質網頁資料整合之自動化研究
檔案 [Endnote RIS 格式]    [Bibtex 格式]    [相關文章]   [文章引用]   [完整記錄]   [館藏目錄]   [檢視]  [下載]
  1. 本電子論文使用權限為同意立即開放。
  2. 已達開放權限電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。
  3. 請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。

摘要(中) 隨著網際網路與智慧型行動裝置的快速發展,電子地圖已經成為了我們生活中不可或缺的好幫手。若希望電子地圖能提供高品質的區域搜尋服務,則必須讓使用者能夠精確地搜尋到其所在區域內使用者感興趣的地點(Point of Interest, POI),包含各類食衣住行育樂等不同類別的商店位置。
現今公認最強大的電子地圖莫過於Google Maps,使用者習慣在Google Maps上搜尋POI,但並不是所有使用者想要的POI都能在Google Maps上找到。為此我們勢必得拓展POI的來源,並且建構一個豐富的POI資料庫,以提供使用者查詢。近年來由於 社交網站的崛起,使用者常常因著社交網站能夠快速散播資訊的特性,所以在這類網路媒體上分享一些美食資訊、旅遊經驗等等諸如此類的資料。同時商家也會在上面成立官方粉絲團或者官方網頁,詳加介紹店家的產品,以快速增加產品曝光率。這些使用者及店家在網際網路上所提供的資訊,對於探勘新的POI都是很好的來源。在本篇論文中,我們提出一個基於Web資訊的系統,此系統可以大略分為以下三部分。
第一部分為地址相關Google snippet的爬取,其爬取的原因為Google snippet當中可能包含豐富的POI相關資訊。
第二部分為POI擷取模型,透過Conditional Random Field (CRF) 以及 Conditional Random Field Sharp (CRF Sharp)作為學習演算法,產生的中文地址名稱辨識模型以及中文組織名稱辨識模型,其目的是為找出所有在snippet當中出現過的地址以及組織名稱。
第三部分為地址與組織名稱的配對模型,使用LibSVM作為學習演算法,以訓練模型,為地址與組織名稱進行配對。
摘要(英) The rapid development of the Internet and mobile smart devices has made the electronic map gradually become a good helper in our lives.
If we hope the electronic map can provide a quality Location-Based Service, it must be able to help users accurately find nearby POIs (Point of Interest) in the nearby location, including food, clothing, housing, communications etc.
The most powerful electronic map today is Google Maps. Many users are used to search for POIs with it. However, not all user-desired POIs can be found on Google Maps. Therefore, we have to expand the sources of POIs, and build a resourceful database of POIs for user queries. As the rise of social networking in recent years, users often share food information and travel experiences on these media. As the same time, businesses are in favor of setting up official pages to increase the visibility of their products.
In this paper, we propose a web-based system, which could be roughly divided into the following three parts.
The first part is the crawling of address associated snippets.
The second part is the POI extraction model. Through the Conditional Random Field (CRF) and Conditional Random Field Sharp (CRF Sharp) as the learning algorithm. The purpose of this algorithm is to find out all the addresses and POI names in snippets.
The third part is the POI pair verification model. The verification model is trained by the LibSVM learning algorithm, paired the address and POI name.
關鍵字(中) ★ 資料探勘
★ 機器學習
關鍵字(英) ★ Data Mining
★ Machine Learning
論文目次 摘要 VI
Abstract VII
目錄 VIII
圖目錄 X
表目錄 XI
一、 緒論 1
1.1研究背景 1
1.2研究動機 2
1.3章節概要 3
二、相關研究 4
2.1 Query-based Crawler介紹 5
2.1.1 查詢關鍵字介紹 5
2.2 中文地址擷取模組 6
2.3 中文組織名稱擷取模組 7
2.4 POI驗證模組 8
三、系統架構、流程及方法 10
3.1系統架構圖 10
3.2系統流程 10
3.3效能提升方法 13
3.3.1提升網頁爬取程式之效能 13
3.3.2 漸進式學習法 14
3.3.3強化中文組織名稱辨識模型之效能 15
3.3.4強化地址與組織名稱配對模型之效能 16
四、實驗 18
4.1資料集 18
4.1.1 中文組織名稱辨識模型實驗資料集 18
4.1.2 地址與中文組織名稱配對模型實驗資料集 19
4.2網頁爬取程式效能實驗 20
4.3中文組織名稱辨識模型效能實驗 21
4.3.1 效能評估方式 21
4.3.2 中文組織名稱辨識模型實驗結果 22
4.4地址與組織名稱配對模型效能實驗 23
4.4.1 效能評估方式 23
4.4.2 地址與組織名稱配對模型實驗結果 23
4.4.3 信賴度調整實驗結果 25
4.5整體系統效能評估 26
4.5.1 效能評估方式 26
4.5.2 系統效能評估結果 26
五、結論與未來工作 29
參考文獻 30
參考文獻 [1] T.Y. Kao and C.H. Chung., "Points of Interest Extraction from Unstructured Web", National Central University graduated paper, 2015.
[2] S.-Y. Li, Application and Extraction of Postal Addresses and Related Information,
National Central University, 2009.
[3] Y.-Y. Huang, C.-L. Chou, C.-H. Chang, Web NER Model Generator Tool based
on Google Snippets, submitted for publication, 2015.
[4] H.-M. Chuang, Verification of POI and Location Pairs via Weakly Labeled Web Data. Workshop on Loc. Web 2015, WWW(Companion Volume)
[5] Z.-K. Fu, Site: https://crfsharp.codeplex.com/,2014.
[6] Diehl and Cauwenberghs, SVM Incremental Learning, Adaptation and Optimization. IEEE 2003.
[7]Yu-Yang Lin, Chia-Hui Chang,網頁商家名稱擷取與地址配對之研究 (Store Name Extraction and Name-Address Matching on the Web).
指導教授 張嘉惠(Chia-Hui Chang) 審核日期 2016-8-29
推文 facebook   plurk   twitter   funp   google   live   udn   HD   myshare   reddit   netvibes   friend   youpush   delicious   baidu   
網路書籤 Google bookmarks   del.icio.us   hemidemi   myshare   

若有論文相關問題,請聯絡國立中央大學圖書館推廣服務組 TEL:(03)422-7151轉57407,或E-mail聯絡  - 隱私權政策聲明