結構化語者模型之研究

以作者查詢圖書館館藏

、以作者查詢臺灣博碩士

、以作者查詢全國書目

、勘誤回報

、線上人數：16

、訪客IP：3.137.161.182

姓名

陳俊傑(Chun-Chieh Chen) 查詢紙本館藏

畢業系所

電機工程學系

論文名稱

結構化語者模型之研究
(The study of structural speaker model)

相關論文

★ 小型化 GSM/GPRS 行動通訊模組之研究	★ 語者辨識之研究
★ 應用投影法作受擾動奇異系統之強健性分析	★ 利用支撐向量機模型改善對立假設特徵函數之語者確認研究
★ 結合高斯混合超級向量與微分核函數之語者確認研究	★ 敏捷移動粒子群最佳化方法
★ 改良式粒子群方法之無失真影像預測編碼應用	★ 粒子群演算法應用於語者模型訓練與調適之研究
★ 粒子群演算法之語者確認系統	★ 改良式梅爾倒頻譜係數混合多種語音特徵之研究
★ 利用語者特定背景模型之語者確認系統	★ 智慧型遠端監控系統
★ 正向系統輸出回授之穩定度分析與控制器設計	★ 混合式區間搜索粒子群演算法
★ 基於深度神經網路的手勢辨識研究	★ 人體姿勢矯正項鍊配載影像辨識自動校準及手機接收警告系統

檔案

[Endnote RIS 格式]

[Bibtex 格式]

[相關文章]

[文章引用]

[完整記錄]

[館藏目錄]

[檢視]

[下載]

本電子論文使用權限為同意立即開放。
已達開放權限電子全文僅授權使用者為學術研究之目的，進行個人非營利性質之檢索、閱讀、列印。
請遵守中華民國著作權法之相關規定，切勿任意重製、散佈、改作、轉貼、播送，以免觸法。

摘要(中)

在本論文中，我們提出以樹狀結構高斯密度為基礎的文字不特定語者調適系統。首先將一個訓練良好的通用背景模型以樹狀結構建造出在聲學空間中具有不同解析度的結構化背景模型，因此利用結構化的語者調適法調適出來的特定語者模型亦具有多重解析度的聲紋特性；利用樹狀結構於語者調適技術及語者模型在語者辨識正確率上有不錯的效果。
我們也將比較樹狀結構在不同語者調適方法上的效果。在少量調適語料的情況下，模型中沒有分到調適語料的高斯分佈會使得辨識的效能降低。因此對於沒有調適的高斯分佈，本論文提出一個加入結構化的向量場平滑化演算法，改善傳統向量場平滑化方法的缺點，進一步地提升系統的辨識效能。
在語者確認方面，樹狀結構中每一層解析度都有一定的效果，本論文也嘗試結合多層解析度計分的方法，以萃取在不同空間架構下的優缺點，以降低語者確認系統的等錯誤率。

關鍵字(中)

★ 語者調適
★ 語者確認
★ 語者識別
★ 語者辨識

關鍵字(英)

★ speaker recognition
★ speaker verification
★ speaker identification
★ speaker adaptation

論文目次

摘要…………………………………………………………………… Ⅰ
目錄…………………………………………………………………… Ⅱ
附圖目錄………………………………………………………………. Ⅴ
附表目錄…………………………………………….………………… Ⅶ
第一章緒論……………………………………………………………1
1.1 研究動機…………………………………………………… 1
1.2 語者辨識概述……………………………………………… 2
1.3 語者調適技術概述………………………………………… 4
1.4 論文方向與研究目的……………………………………… 5
1.5 章節概要…………………………………………………… 6
第二章語者辨識之基本技術…………………………………………7
2.1 特徵參數擷取……………………………………………… 7
2.2 語者模型建立……………………………………………..10
2.2.1 高斯混合模型………………………………………11
2.2.2 語者模型訓練流程…………………………………12
2.2.3 向量量化……………………………………………13
2.2.4 EM演算法………………………………………….16
2.3 語者辨識………………………………………………….17
2.3.1 語者識別……………………………………………17
2.3.2 語者確認……………………………………………18
2.3.3 背景語者模型………………………………………20
2.3.4 門檻值的選取………………………………………21
2.4 語者調適技術…………………………………………….22
2.4.1 貝氏調適法…………………………………………23
2.4.2 向量場平滑化………………………………………27
第三章結構化語者模型之架構……………………………………..31
3.1 結構化背景模型的訓練……………………………………32
3.1.1 K-L離散度………………………………………….33
3.1.2 最大最小距離演算法………………………………34
3.1.3 最大相似度…………………………………………36
3.1.4 結構化背景模型……………………………………36
3.2 多層解析度之調適法…………………………………….39
3.2.1 結構化貝氏調適法…………………………………39
3.2.2 結構化之向量場平滑化……………………………41
3.3 多層解析度計分之結合…………………………………….44
第四章語者調適實驗……………………………………………….46
4.1 語音資料庫…………………………………………………46
4.2 結構化背景模型實驗………………………………………47
4.2.1 樹狀結構中不同解析度的比較……………………48
4.3 語者調適實驗………………………………………………50
4.3.1 傳統高斯混合模型與調適高斯混合模型的比較…50
4.3.2 調適語料長度對貝氏調適法的影響………………52
4.3.3 加入結構化向量場平滑化的影響…………………53
4.4 結構化高斯混合模型實驗…………………………………56
4.4.1 結構化背景模型架構的比較………………………56
4.4.2 使用結構化高斯混合模型的影響…………………58
4.5 多重解析度計分實驗………………………………………61
4.5.1 不同空間解析度分數的效應………………………61
4.5.2 結合空間解析度計分的影響………………………62
第五章結論與未來展望…………………………………………….65
5.1 結論…………………………………………………………65
5.1 未來展望……………………………………………………66
參考文獻……………………………………………………………….68

參考文獻

[1] L. R. Rabiner and B. H. Juang, Fundamentals of Speech Recognition, Prentice Hall, New Jersey, 1993.
[2] X. Huang, A. Acero and H. W. Hon, Spoken Language Processing, Prentice Hall, 2001.
[3] J. T. Tou and R. C. Gonzalez, Pattern Recognition Principles, Addison Wesley, 1974.
[4] L. S. Lee and Y. Lee, “Voice Access of Global Information for Broad-Band Wireless: Technologies of Today and Challenges of Tomorrow,” Proceedings of the IEEE, vol. 89, no. 1, pp. 41-57, January 2001.
[5] G. R. Doddington, “Speaker recognition-identifying people by their voices,” Proceedings of the IEEE, vol. 73, no. 11, pp. 1651-1664, November 1985.
[6] J. L. Gauvain and C. H. Lee, “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains,” IEEE Trans. Speech and Audio Processing, vol. 2, no. 2, pp. 291-298, April 1994.
[7] R. Kuhn, J. C. Junqua, P. Nguyen and N. Niedzielski, “Rapid Speaker Adaptation in Eigenvoice Space,” IEEE Trans. Speech and Audio Processing, vol. 8, no. 6, pp. 695-707, November 2000.
[8] M. Tonomura, T. Kosaka and S. Matsunaga, “Speaker Adaptation Based on Transfer Vector Filed Smoothing Using Maximum a Posteriori Probability Estimation,” ICASSP-95, vol.1, pp. 688-691, 1995.
[9] D. A. Reynolds and R. C. Rose, “Robust Text-Independent Speaker Identification Using Gaussian Mixture Models,” IEEE Trans. Speech and Audio Processing, vol. 3, no. 1, pp. 72-83, January 1995.
[10] R. Vergin, D. O’Shaughnessy and A. Farhat, “Generalized Mel Frequency Coefficients for Large-Vocabulary Speaker-Independent Continuous-Speech Recognition,” IEEE Trans. Speech and Audio Processing, vol. 7, no. 5, pp. 525-532, September 1999.
[11] T. K. Moon, “The Expectation-Maximization Algorithm,” IEEE Signal Processing Magazine, vol. 13, no. 6, pp. 47-60, November 1996.
[12] C. S. Liu, H. C. Wang and C. H. Lee, “Speaker Verification Using Normalized Log-Likelihood Score,” IEEE Trans. Speech and Audio Processing, vol. 4, no. 1, pp. 56-60, January 1996.
[13] K. Shinoda and C. H. Lee, “A Structural Bayes Approach to Speaker Adaptation,” IEEE Trans. Speech and Audio Processing, vol. 9, no. 3, pp. 276-287, March 2001.
[14] T. Watanabe, K. Shinoda, K. Takagi and K. –I. Iso, “High speed speech recognition using tree-structured probability density function,” in Proc. Int. Conf. Acoustics, Speech, Signal Processing, 1995, pp. 556-559.
[15] B. Xiang and T. Berger, “Efficient Text-Identification Speaker Verification with Structural Gaussian Mixture Models and Neural Network,” IEEE Trans. Speech and Audio Processing, vol. 11, no. 5, pp. 447-456, September 2003.
[16] T. J. Hanzen and A. K. Halberstadt, “Using aggregation to improve the performance of mixture Gaussian acoustic models,” in Proc. Int. Conf. Acoustics, Speech, Signal Processing, 1998, pp. 653-656.
[17] B. L. Pellom and J. H. L. Hansen, “An Efficient Scoring Algorithm for Gaussian Mixture Model Based Speaker Identification,” IEEE Signal Processing Letters, vol. 5, no. 11, pp. 281-284, November 1998.
[18] 吳金池，”語者辨識系統之研究”，國立中央大學電機工程研究所碩士論文，民國九十一年。
[19] 賴彥輔，”語者辨識之研究”，國立中央大學電機工程研究所碩士論文，民國九十二年。
[20] 陳冠廷，”以樹狀結構有效使用調適語料之語者調適技術”，國立台灣大學電信工程研究所碩士論文，民國八十八年。

指導教授

莊堯棠(Yau-Tarng Juang)

審核日期

2004-7-9

推文