模型調適之語者識別系統

以作者查詢圖書館館藏

、以作者查詢臺灣博碩士

、以作者查詢全國書目

、勘誤回報

、線上人數：30

、訪客IP：3.135.192.76

姓名

張文杰(Wen-Chieh Chang) 查詢紙本館藏

畢業系所

電機工程學系

論文名稱

模型調適之語者識別系統
(Model Adaptation Based Speaker Recognition Systems)

相關論文

★ 小型化 GSM/GPRS 行動通訊模組之研究	★ 語者辨識之研究
★ 應用投影法作受擾動奇異系統之強健性分析	★ 利用支撐向量機模型改善對立假設特徵函數之語者確認研究
★ 結合高斯混合超級向量與微分核函數之語者確認研究	★ 敏捷移動粒子群最佳化方法
★ 改良式粒子群方法之無失真影像預測編碼應用	★ 粒子群演算法應用於語者模型訓練與調適之研究
★ 粒子群演算法之語者確認系統	★ 改良式梅爾倒頻譜係數混合多種語音特徵之研究
★ 利用語者特定背景模型之語者確認系統	★ 智慧型遠端監控系統
★ 正向系統輸出回授之穩定度分析與控制器設計	★ 混合式區間搜索粒子群演算法
★ 基於深度神經網路的手勢辨識研究	★ 人體姿勢矯正項鍊配載影像辨識自動校準及手機接收警告系統

檔案

[Endnote RIS 格式]

[Bibtex 格式]

[相關文章]

[文章引用]

[完整記錄]

[館藏目錄]

[檢視]

[下載]

本電子論文使用權限為同意立即開放。
已達開放權限電子全文僅授權使用者為學術研究之目的，進行個人非營利性質之檢索、閱讀、列印。
請遵守中華民國著作權法之相關規定，切勿任意重製、散佈、改作、轉貼、播送，以免觸法。

摘要(中)

摘要
在本論文中，我們提出以回授式調適法為基礎的文字不特定語者辨識系統。首先將一個訓練良好的通用背景模型與系統使用者的少量調適語料利用貝式調適法來獲得語者特定模型，然後藉由回授方式再進一步調整模型參數，而由於回授過程中可取得更多的事前參數資訊，因此對於模型的調適能更有效地突顯出該語者的個人特色。針對貝式調適法中的缺點，即在很少量的調適語料下會因為沒有調適到的高斯分佈群而使得系統辨識的效能降低，回授式調適法讓調適語者模型參數有了更完善的描述，因而獲得調適上的改善。
另外，我們使用特徵語音調適法來進行語者調適工作，利用其在少量調適語料下的特殊表現來建置語者辨識系統，藉著眾多語者特定模型與不特定語者模型建構出特徵空間，運用主成分分析將重要的聲學訊息取出，再藉由少數具代表性的空間基底來線性組合出調適語者模型，以達成快速調適之目的，此方法不僅在語音辨識上有不錯的表現，在語者識別上亦有良好的效能。本論文中是以100位語者來做語者調適實驗，而由實驗的結果可發現此兩種調適方法都能夠在少量語料的情況下，即時地調適出語者模型且都有傑出的辨識效果。

關鍵字(中)

★ 特徵語音調適法
★ 回授式調適法

關鍵字(英)

★ Eigenvoice
★ Feedback Speaker Adaptation

論文目次

目錄 Ⅰ
附圖目錄 Ⅳ
附表目錄 Ⅵ
第一章緒論 1
1.1 研究動機 1
1.2 語者辨識概述 2
1.3 語者調適技術概述 4
1.4 研究方向 5
1.5 章節概要 6
第二章語者識別之基本技術 7
2.1 特徵參數擷取 7
2.2 語者模型建立 11
2.2.1 高斯混合模型 11
2.2.2 語者模型訓練流程 12
2.2.3 向量量化 13
2.2.4 EM演算法 16
2.3 語者識別 17
2.4 貝式調適法 18
2.5 特徵語音調適法 23
第三章系統架構 27
3.1 貝式調適法之分析 27
3.2 回授式語者調適法 29
3.3 特徵語音調適之語者識別 33
第四章語者辨識實驗之研究 38
4.1 語音資料庫 38
4.2 回授式調適法實驗 39
4.2.1 遞迴調適的影響 39
4.2.2 參數適用性之探討 42
4.2.3 加入判斷式 45
4.2.4 進階回授調適 48
4.3 特徵語音調適法實驗 50
4.3.1 語者特定模型的事前正規化 51
4.3.2 特徵語音調適法之辨識成效 52
第五章結論與未來展望 56
5.1 結論 56
5.2 未來展望 58
參考文獻 60
附圖目錄
圖 1.1 語者辨識系統之基本架構 3
圖 1.2 語者調適系統之基本架構 4
圖 2.1 特徵參數擷取流程圖 8
圖 2.2 高斯混合模型圖 11
圖 2.3 語者模型訓練流程圖 13
圖 2.4 二值分裂法訓練流程圖 15
圖 2.5 不同語者間supervector的排列方式 24
圖 2.6 特徵語音調適法方塊圖 26
圖 3.1 回授式語者調適流程圖 30
圖 3.2 不同語者間supervector的對齊方式 34
圖 3.3 特徵向量空間的呈現 36
圖 3.4 特徵語音調適之語者識別流程圖 37
圖 4.1 遞迴調適於1秒測試語料 40
圖 4.2 遞迴調適於3秒測試語料 40
圖 4.3 遞迴調適於5秒測試語料 41
圖 4.4 回授調適於1秒測試語料之參數調整 43
圖 4.5 回授調適於3秒測試語料之參數調整 43
圖 4.6 回授調適於5秒測試語料之參數調整 44
圖 4.7 不同比率之回授調適於1秒測試語料 45
圖 4.8 不同比率之回授調適於3秒測試語料 46
圖 4.9 不同比率之回授調適於5秒測試語料 46
圖 4.10 於不同特徵向量數目下正規化之辨識結果 51
圖 4.11 特徵語音調適法於不同語料量之結果 53
附表目錄
表 4.1 MAT2000語音資料庫 38
表 4.2 不同語者調適方式之平均辨識率(%)結果 48
表 4.3 特徵語音調適法在使用不同基底數的情況 51
表 4.4 特徵語音調適法於不同量語料之結果 52
表 4.5 特徵語音調適法在使用不同基底數的情形 53
表 4.6 傳統GMM在使用不同高斯分佈個數的情形 53

參考文獻

參考文獻
[1] X. Huang, A. Acero and H. W. Hon, Spoken Language Processing, Prentice Hall, 2001.
[2] L. R. Rabiner and B. H. Juang, Fundamentals of Speech Recognition, Prentice Hall, New Jersey, 1993.
[3] L. S. Lee, Y. Lee, “Voice Access of Global Information for Broad-Band Wireless: Technologies of Today and Challenges of Tomorrow,” Proceedings of the IEEE, vol. 89, no. 1, pp. 41-57, January 2001.
[4] G. R. Doddington, “Speaker recognition-identifying people by their voices,” Proceedings of the IEEE, vol. 73, no. 11, pp. 1651-1664, November 1985.
[5] J. L. Gauvain and C. H. Lee, “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains,” IEEE Trans. Speech and Audio Processing, vol. 2, no. 2, pp. 291-298, April 1994.
[6] C. J. Leggetter and P. C. Woodland, “Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models,” Computer Speech and Language, vol. 9, pp. 171-185, 1995.
[7] R. Kuhn, J. C. Junqua, P. Nguyen and N. Niedzielski, “Rapid Speaker Adaptation in Eigenvoice Space,” IEEE Trans. Speech and Audio Processing, vol. 8, no. 6, pp. 695-707, November 2000.
[8] D. A. Reynolds and R. C. Rose, “Robust Text-Independent Speaker Identification Using Gaussian Mixture Models,” IEEE Trans. Speech and Audio Processing, vol. 3, no. 1, pp. 72-83, January 1995.
[9] R. Vergin, D. O’Shaughnessy and A. Farhat, “Generalized Mel Frequency Coefficients for Large-Vocabulary Speaker-Independent Continuous-Speech Recognition,” IEEE Trans. Speech and Audio Processing, vol. 7, no. 5, pp. 525-532, September 1999.
[10] T. K. Moon, “The Expectation-Maximization Algorithm,” IEEE Signal Processing Magazine, vol. 13, no. 6, pp. 47-60, November 1996.
[11] D. A. Reynolds, T. F. Quatieri and R. B. Dunn, “Speaker Verification Using Adapted Gaussian Mixture Models,” Digital Signal Process, vol. 10, pp. 19-41, 2000.
[12] M. Tonomura, T. Kosaka and S. Matsunaga, “Speaker Adaptation Based on Transfer Vector Filed Smoothing Using Maximum a Posteriori Probability Estimation,” ICASSP-95, vol.1, pp. 688-691, 1995.
[13] J. Takahashi and S. Sagayama, “Vector-Filed-Smoothed Bayesian Learning for Incremental Speaker Adaptation,” ICASSP-95, vol.1, pp. 696-699, 1995.
[14] T. Y. Wu, L. Lu, K. Chen and H. J. Zhang, “UBM-based Incremental Speaker Adaptation,” ICME’03, vol.2, pp. 721-724, July 2003.
[15] O. Thyes, R. Kuhn, P. Nguyen and J. C. Junqua, “Speaker Identification and Verification using Eigenvoices,” ICSLP 2000, vol.2, pp. 242-246, October 2000.
[16] H. C. Wang, F. Seide, C. Y. Tseng and L. S. Lee, “MAT2000-Design, collection, and validation of a Mandarin 2000-spealer telephone speech database,” ICSLP, pp. 460-463, 2000.
[17] P. Kenny, G. Boulianne, P. Ouellet and P. Dumouchel, “Speaker Adaptation Using an Eigenphone Basis,” IEEE Trans. Speech and Audio Processing, vol. 12, no. 6, pp. 579-589, November 2004.
[18] D. K. Kim and N. S. Kim, “Maximum a posteriori Adaptation of HMM Parameters Based on Speaker Projection,” Speech Communication, vol. 42, pp. 59-73, January 2004.
[19] P. Nguyen, C. Wellekens and J. C. Junqua, “Maximum Likelihood Eigenspace and MLLR for Speech Recognition in Noisy Environments,” Eurospeech99, vol. 6, pp. 2519-2522, 1999.
[20] 吳金池， “語者辨識系統之研究”，國立中央大學電機工程研究所碩士論文，民國九十一年。
[21] 廖家慶， “語者調適之應用研究”，國立中央大學電機工程研究所碩士論文，民國九十一年。
[22] 賴彥輔， “語者辨識之研究”，國立中央大學電機工程研究所碩士論文，民國九十二年。
[23] 廖文偉， “以向量空間為基礎之語者調適技術”，國立台灣大學電信工程學研究所碩士論文，民國八十九年。
[24] 鍾偉仁， “語者辨認與認證之初步研究”，國立台灣大學電信工程學研究所碩士論文，民國九十年。
[25] 李孝健， “以特徵聲音調整為主之使用者言語資訊確認技術”，國立成功大學資訊工程學系碩士論文，民國九十二年。

指導教授

莊堯棠(Yau-Tarng Juang)

審核日期

2005-7-5

推文