非監督式快速語者調適演算法研究

以作者查詢圖書館館藏

、以作者查詢臺灣博碩士

、以作者查詢全國書目

、勘誤回報

、線上人數：58

、訪客IP：3.149.243.32

姓名

陳克巽(Ke-Zhuan Chen) 查詢紙本館藏

畢業系所

電機工程學系

論文名稱

非監督式快速語者調適演算法研究

相關論文

★ 小型化 GSM/GPRS 行動通訊模組之研究	★ 語者辨識之研究
★ 應用投影法作受擾動奇異系統之強健性分析	★ 利用支撐向量機模型改善對立假設特徵函數之語者確認研究
★ 結合高斯混合超級向量與微分核函數之語者確認研究	★ 敏捷移動粒子群最佳化方法
★ 改良式粒子群方法之無失真影像預測編碼應用	★ 粒子群演算法應用於語者模型訓練與調適之研究
★ 粒子群演算法之語者確認系統	★ 改良式梅爾倒頻譜係數混合多種語音特徵之研究
★ 利用語者特定背景模型之語者確認系統	★ 智慧型遠端監控系統
★ 正向系統輸出回授之穩定度分析與控制器設計	★ 混合式區間搜索粒子群演算法
★ 基於深度神經網路的手勢辨識研究	★ 人體姿勢矯正項鍊配載影像辨識自動校準及手機接收警告系統

檔案

[Endnote RIS 格式]

[Bibtex 格式]

[相關文章]

[文章引用]

[完整記錄]

[館藏目錄]

[檢視]

[下載]

本電子論文使用權限為同意立即開放。
已達開放權限電子全文僅授權使用者為學術研究之目的，進行個人非營利性質之檢索、閱讀、列印。
請遵守中華民國著作權法之相關規定，切勿任意重製、散佈、改作、轉貼、播送，以免觸法。

摘要(中)

在調適方法方面，本論文中使用到的主要有貝氏調適法(Bayesian adaptation, MAP)、最大可能性線性迴歸(Maximum Likelihood Linear Regression, MLLR)、向量場平滑化(Vector-Field-Smoothing, VFS)三種，並嘗試結合MLLR與MAP、MLLR與VFS來提升調適能力可能性，並由實驗證明，MLLR+MAP與MLLR+VFS不論在監督(Supervised)或非監督(Unsupervised)調適中，效果都比使用單一方法下來得好。
在快速調適做法上，一般是用監督批次 (Supervised Batch) 式架構或非監督漸增(Unsupervised Incremental)方法來實現。本論文首先使用監督批次式(SB)架構來評估各種調適方法表現；另外在非監督調適上，使用兩種架構，一種是每次在調適時只使用不同2句話來不斷地調整初始模型(UI_1)；另一種則是重覆使用上一次調適過的語料來調適(UI_2)。MLLR使用UI_1調適架構時，正確率會有跳動情況發生，若再增加調適語料，跳動情形依然可能發生；若與MAP、VFS結合，則可以增加MLLR在非監督調適下穩定性，從MLLR+VFS與MLLR+MAP 以每次4句，5次調適結果平均來比較，兩者都比不特定語者高出5個百分點左右，MLLR+VFS又比MLLR+MAP高出了1.34個百分點，同時可以看出MLLR+VFS在一次使用較多調適語料時，正確率比較不會有跳動的情況發生。
在非監督調適當中，若使用UI_2架構，則對MLLR+MAP與MLLR+VFS而言，具有快速穩定調適效果，兩者在第2次的調適後，即可達到 90 %詞正確率，若調適次數再增加，則MLLR+VFS正確率有緩慢上升趨勢，最好可達 94.45 %。所以在非監督式快速語者調適當中，使用UI_2架構，並結合MLLR+VFS是較為可行調適方法。

關鍵字(中)

★ 非監督式快速語者調適
★ 貝氏調適法
★ 最大可能性線性迴歸
★ 向量場平滑化

關鍵字(英)

★ Speaker Adaptation

論文目次

摘　要6
目　錄11
附圖目錄13
附表目錄15
第一章序論16
1.1語者調適簡介16
1.2回顧語者調適研究方法17
1.3研究動機19
1.4研究方向及目標19
1.5論文大綱20
第二章語者調適方法21
2.1貝氏調適法(MAP)21
2.2最大可能性線性回歸(MLLR)22
2.2.1 MLLR 理論22
2.2.2 MLLR單一混合高斯分布轉換矩陣估計23
2.2.3 多種迴歸類別之推導26
2.2.4 不限調適語料之推導28
2.2.5 對角化之推導28
2.3向量場平滑化(VFS) 30
第三章系統架構34
3.1實驗環境34
3.1.1 實驗設備34
3.1.2 特徵參數34
3.1.3 訓練、調適及測試語料34
3.2初始模型─次音節模型35
3.3次音節模型訓練─由左至右隱藏式馬可夫模型36
3.3.1 一般性原理36
3.3.2 由左至右隱藏式馬可夫模型37
3.3.3 次音節模型訓練37
3.3.4 模型辨識39
3.4調適實驗架構40
3.4.1 調適實驗初始模型40
3.4.2 監督批次式調適架構(SB)40
3.4.3 非監督式增量調適架構1(UI_1)41
3.4.4 非監督式增量調適架構2(UI_2)42
第四章調適系統實現及實驗結果43
4.1不特定語者實驗結果43
4.2MAP基本調適實驗43
4.2.1 MAP自我調適實驗43
4.2.2 MAP調適實驗45
4.3MLLR調適實驗47
4.4VFS調適實驗50
4.5MLLR+MAP調適實驗53
4.6MLLR+VFS調適實驗56
第五章結論及未來發展方向60
5.1結論60
5.2未來發展方向62
參考文獻64
附　錄67

參考文獻

【1】 Seyed Mohammad Ahadi-Sarkani, “Bayesian and Predictive Techniques for Speaker Adaptation”. Ph.D. Thesis, Cambridge University, U.K., 1996.
【2】 A. Sankar and C-H. Lee, “A Maximum-Likelihood Approach to Stochastic Matching for Robust Speech Recognition”. IEEE Trans. on Speech and Audio Proc., Vol. 4, pp. 190—202, May 1996.
【3】 Heidi Christensen, “Speaker Adaptation of Hidden Markov Models using Maximum Likelihood Linear Regression”. MSc.E.E. Thesis. Aalborg University, Denmark, June 1996.
【4】 Lawrence Rabiner and B-H. Juang, “Fundamentals of Speech Recognition”. Prentice Hall, 1993.
【5】 X. Huang and K.F. Lee, “On Speaker-Independent, Speaker-Dependent, and Speaker-Adaptive Speech Recognition”. IEEE Trans. on Speech and Audio Proc., Vol. 12, pp. 150—157, April 1993.
【6】 C-H. Lee, C-H. Lin, and B-H. Juang, “A Study on Speaker Adaptation of the Parameters of Continuous Density Hidden Markov Models”. IEEE Trans. on Sig. Proc., Vol. 39, No. 4, pp. 806—814, April 1991.
【7】 B.F. Necioglu, M. Ostendorf, and J.R. Rohlicek, “A Bayesian Approach to Speaker Adaptation for the Stochastic Segment Model”. ICASSP-92, Vol. 1, pp. 437—440, 1992.
【8】 J-I. Takahashi and S. Sagayama, “Fast Telephone Channel Adaptation Based on Vector Field Smoothing Technique”. Second IEEE Workshop on Interactive Voice Technology for Telecommunications Applications, pp. 97—100, 1994.
【9】 M. Tonomura, T. Kosaka and S. Matsunaga, “Speaker Adaptation Based on Transfer Vector Field Smoothing using Maximum a Posteriori Probability Estimation”. ICASSP-95, Vol. 1, pp. 688—691, 1995.
【10】 J. Takahashi and S. Sagayama, “Vector-Field-Smoothed Bayesian Learning for Incremental Speaker Adaptation”. ICASSP-95, Vol. 1, pp. 696—699, 1995.
【11】 J. Takahashi and S. Sagayama, “Minimum Classification Error Training for a Small Amount of Data Enhanced by Vector-Field-Smoothed Bayesian Learning”. ICASSP-96, Vol.: 2, pp. 597—600, 1996.
【12】 S. Cox, “Speaker Adaptation in Speech Recognition using Linear Regression Techniques”. Electronics Letters Vol. 28, pp. 2093—2094, Oct. 1992.
【13】 S.J. Cox, “A Speaker Adaptation Technique using Linear Regression”. ICASSP-95, Vol. 1, pp. 700—703, 1995.
【14】 P.C. Woodland, D. Pye and M.J.F. Gales, “Iterative Unsupervised Adaptation using Maximum Likelihood Linear Regression”. Fourth International Conference on Spoken Language, Vol. 2, pp. 1133—1136.
【15】 C.J. Leggetter and P.C. Woodland, “Speaker Adaptation of HMM’s using Linear Regression”. Technical Report GUED/F-INFENG/ TR.181, Cambridge University, June 1994.
【16】 C.J. Leggetter and P.C. Woodland, “Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models”. Computer Speech and Language, Vol. 9, pp. 171—185, 1995.
【17】 C.J. Leggetter and P.C. Woodland, “Flexible Speaker Adaptation using Maximum Likelihood Linear Regression”. Proc. ARPA Spoken Language Technology Workshop, pp. 104—109, Feb. 1995.
【18】 C.J. Leggetter and P.C. Woodland, “Speaker Adaptation of continuous density HMMs using Multivariate Linear Regression”. ICSLP-94, Vol. 2, pp. 451—454, Yokohama, 1994.
【19】 M.J.F. Gales, “Maximum Likelihood Linear Transformation for HMM-Based Speech Recognition”. Technical Report GUED/F-INFENG/TR.291, Cambridge University, May 1997.
【20】 M.J.F. Gales, “The Generation and use of Regression Class Trees for MLLR Adaptation”. Technical Report GUED/F-INFENG/TR.263, Cambridge University, August 1996.
【21】 L.R. Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”. Proc. IEEE, Vol. 77, No.2, pp. 257—286, Feb. 1989.
【22】陸康瑋，”國語語音辨認中語者調適技術之研究”，國立台灣大學電機工程研究所碩士論文民國八十四年。
【23】蔡忠安，”語者調適和正規化技術在語音辨認之初步研究”，國立交通大學電信工程研究所碩士論文，民國八十七年。
【24】曾國裕，”國語語音辨認中使用少量語料之語者調適技術研究”，國立台灣大學電機工程研究所碩士論文，民國八十七年。

指導教授

莊堯棠(Yau-Tarng Juang)

審核日期

2000-6-13

推文