論文名稱 結合深度神經網路和VP決策樹的街道招牌偵測和檢索
(Detection and Retrieval of Combining Deep Neural Network and VP Decision Tree in Street Signboard)
摘要(中) 視障人士自主生活與戶外行動的權利,受到感官能力的限制,對視障者而言是一個難以達成的任務。即便配合視覺輔具與無障礙措施,獲取行動的助益,但招牌的獨特性圖騰設計,傳統機器視覺較不易辨別。為此本研究針對街景商店影像,提出一個創新的招牌偵測與檢索系統,我們以神經網路進行偵測,找出街景上多個招牌物件位置,藉由招牌影像建立一個以圖像資料為索引的結構,使用影像均值雜湊、感知雜湊及差異雜湊算法,可以處理商業獨特性圖騰的識別及無數種商店招牌的種類,並結合VP決策樹迅速搜索的優勢,以檢索方式尋找最相似的特徵節點。街景招牌資料集使用自行蒐整建立的影像,系統的招牌定位模組召回率達為84%,而檢索模組Rank1及Rank5都能成功檢索命中,最後使用偵測與檢索整體實驗平均精確度達86%。本系統開發提供給視障者的視覺輔助,回饋當前店家的類型資訊,使視障朋友也能與常人一樣感知與行動決策。
摘要(英) The rights of the visually impaired to live independently and to move outdoors are limited by their perception abilities, which is a difficult task for the visually impaired. Even with visual aids and barrier-free measures to help them living better, the unique totem design of the signboard is not easy to distinguish by traditional machine vision. Therefore, in this article we propose an innovative signboard detection and retrieval system for street view store images. We use neural network to detect multiple signboard object positions on the street view, and build a structure indexed by image data from the signboard images. Image mean hashing, perceptual hashing and difference hashing algorithms can handle the recognition of business unique totems and countless types of store signs, and combine the advantages of rapid search of the VP decision tree method to find the most similar feature matrix by retrieval. The Street View signboard dataset uses images created by self-searching. The system’s signboard positioning module recall rate reached 84%, and the retrieval modules Rank1 and Rank5 can successfully retrieve hits. Finally, the average accuracy of the overall experiment of detection and retrieval is up to 86%. This system is developed to provide visual aids for the visually impaired, and feedback the current store type information, so that the visually impaired friends can perceive and make decisions like normal people.
關鍵字(中) ★ 深度學習
★ 街景物件偵測
★ 招牌檢索
論文目次 摘要 iv
謝誌 vi
第1章 緒論 1
1.1 研究動機 1
1.2 研究目的 2
1.3 論文架構 3
第2章 方法回顧 4
2.1 深度學習發展歷程 4
2.1.1 卷積神經網路 6
2.2 影像物件偵測 7
2.2.1 YOLO簡介與發展演進 8
2.3 基於雜湊的圖像相似度演算 16
2.3.1 平均雜湊函式 16
2.3.2 感知雜湊函式 17
2.3.3 差異雜湊函式 18
2.4 決策樹 19
2.4.1 最近鄰檢索 19
2.4.2 VP-Tree 20
第3章 招牌偵測與檢索系統設計 23
3.1 MIAT系統設計方法論 23
3.1.1 IDEF0階層式架構 24
3.1.2 Grafcet離散事件建模 25
3.1.3 偵測與檢索系統設計 26
3.2 YOLO招牌定位模組設計 28
3.3 影像雜湊編碼模組設計 29
3.4 VP決策樹與檢索模組設計 31
3.5 系統程式合成 32
第4章 系統整合與實驗 34
4.1 前置說明 34
4.1.1 開發環境 34
4.1.2 街景資料集 35
4.1.3 標記資料說明 37
4.2 影像定位模組 38
4.2.1 評估方式 39
4.2.2 定位模型訓練 40
4.3 影像檢索模組 43
4.3.1 縮放尺寸招牌圖像相似度比較 43
4.3.2 招牌類別的相似度差異 46
4.4 招牌偵測與檢索模組 48
4.4.1 招牌檢索實驗 48
4.4.2 偵測與檢索整合實驗 50
4.4.3 擴增招牌檢索實驗 53
第5章 結論與未來展望 56
5.1 結論 56
5.2 未來展望 57
參考文獻 58
附錄 61
