以作者查詢圖書館館藏 、以作者查詢臺灣博碩士 、以作者查詢全國書目 、勘誤回報 、線上人數:99 、訪客IP:18.225.195.163
姓名 王薏婷(YI-TING WANG) 查詢紙本館藏 畢業系所 數學系 論文名稱 遞歸神經網絡在語音辨識上之表現分析 相關論文 檔案 [Endnote RIS 格式] [Bibtex 格式] [相關文章] [文章引用] [完整記錄] [館藏目錄] [檢視] [下載]
- 本電子論文使用權限為同意立即開放。
- 已達開放權限電子全文僅授權使用者為學術研究之目的,進行個人非營利性質之檢索、閱讀、列印。
- 請遵守中華民國著作權法之相關規定,切勿任意重製、散佈、改作、轉貼、播送,以免觸法。
摘要(中) 語音辨識是人工智慧相當關注的領域,但受限於不同環境的影響,至今依舊
難有一個系統能如人類般清晰的識別。本研究旨在探討梅爾頻率倒譜系數(MFCCs)
及連接性音頻分類(CTC)在語音辨識系統上的功能性。
本研究使用github 上所提供的無噪聲語料,以不同的處理方式建構遞歸神
經網絡模型,並選定一些變因做為探討比較的對象。摘要(英) Speech recognition is part of the artificial intelligence that is highly
concerned, but is limited by different environmental influences. It is
still a difficult subject to have a system that can be clearly identified
as humans. This study aims to investigate the functionality of the Mel
Frequency Cepstral Coefficients (MFCCs) and the Connectionist Temporal
Classification (CTC) on speech recognition systems. This study uses the
noise-free corpus provided on github to construct a recursive neural
network model in different ways, and selects some variables as the object
of discussion and comparison.關鍵字(中) ★ 語音辨識 關鍵字(英) 論文目次 摘要 i
Abstract ii
致謝 iii
目錄 iv
表目錄 v
圖目錄 vi
一、緒論 1
1-1研究動機 1
1-2研究目的 1
1-3研究問題 1
二、論文背景知識與相關文獻探討 2
2-1梅爾頻率倒譜系數 (Mel-Frequency Cepstral Coefficients,MFCCs) 2
2-1-1梅爾刻度(Mel scale) 2
2-1-2濾波流程 4
2-2 連接性音頻分類(Connectionist Temporal Classifcation,CTC) 7
2-2-1連接性音頻分類運作簡介 8
2-2-2模型訓練過程之推導 9
2-2-3標籤錯誤率(Llabel error rate) 14
2-3 遞歸神經網絡(Recurrent Neural Networks ,RNN) 15
2-3-1激活函數(Activation function) 15
2-3-2遞歸神經網絡神經元(Recurrent Neural Networks cell) 18
2-3-3長短期記憶神經元(Long Short-Term Memory Network cell) 19
2-3-4遞歸神經網絡原理 23
三、數據庫與實驗模型介紹 24
3-1 實驗框架介紹 24
3-2數據集介紹 24
3-3實驗變因 26
3-4問題敘述和實作流程 26
四、結果與討論 27
4-1 實驗一的模型表現 27
4-1-1數據集(8-bit) 27
4-1-2數據集(16-bit) 33
4-1-3數據集(降速) 36
4-2 實驗二的模型表現 36
五、結論與未來展望 41
參考文獻: 42參考文獻 [1].周志華(2016)。清華大學出版社,機器學習。
[2].蘇木春,張孝德。全華圖書股份有限公司。機器學習:類神經網絡、模糊系
統以及基因演算法則。
[3].黃安埠(2017)。電子工業出版社,深入淺出深度學習-原理剖析與python
實踐。
[4].林大貴 (2017)。TensorFlow + Keras 深度學習人工智慧實務應用。博碩出
版社。
[5].Nikhil Buduma (2018)。Deeping Learning 深度學習基礎 – 設計下一代
人工智慧演算法。碁峰資訊股份有限公司。
[6].Logan, Beth. "Mel Frequency Cepstral Coefficients for Music
Modeling." ISMIR. Vol. 270. 2000.
[7]. Ordonez, F.J., Englebienne, G.,de Toledo, P., van Kasteren, T.,
Sanchis, A., Krose, B. In-Home Activity Recognition: Bayesian
Inference for Hidden Markov Models. Perv. Comput. IEEE 2014, 13,
67–75.
[8].Ruder, S. (2017). An overview of gradient descent optimization
algorithms. arXiv:1609.04747 .
[9]. Rashidi, P.; Cook, D.J. The resident in the loop: Adapting the smart
home to the user. IEEE Trans. Syst. Man. Cybern. J. Part A 2009, 39,
949–959.
[10]. Qian, N. (1999). On the momentum term in gradient descent learning
algorithms. Nerual networks: the official journal of the
International Neural Network Society,12:145-151.
[11]. Graves, Alex. Fernández, Santiago. Gomez, Faustino (2006).
43
"Connectionist temporal classification: Labelling unsegmented
sequence data with recurrent neural networks". In Proceedings of the
International Conference on Machine Learning, ICML 2006: 369–376.
[12]. Sainath, T., Vinyals, O., Senior, A., Sak, H. Convolutional,
Long Short-Term Memory, fully connected Deep Neural Networks. In
Proceedings of the 40th International Conference on Acoustics,
Speech and Signal Processing (ICASSP), Brisbane, Australia, 19–
24 April 2015; pp. 4580–4584.指導教授 洪盟凱 審核日期 2019-1-25 推文 facebook plurk twitter funp google live udn HD myshare reddit netvibes friend youpush delicious baidu 網路書籤 Google bookmarks del.icio.us hemidemi myshare