English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 80990/80990 (100%)
造訪人次 : 41636105      線上人數 : 1066
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜尋範圍 查詢小技巧:
  • 您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
  • 若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
  • 進階搜尋


    請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/9669


    題名: 利用韻律訊息之強健性語者辨識;Latent Prosody Analysis for Robust Speaker Identification
    作者: 陳子和;Zi-He Chen
    貢獻者: 電機工程研究所
    關鍵詞: 語者辨識;韻律訊息;speaker identification;prosodic information
    日期: 2007-06-13
    上傳時間: 2009-09-22 11:53:08 (UTC+8)
    出版者: 國立中央大學圖書館
    摘要: 在公共電話網路中,語者辨認系統通常會遇到話筒不匹配和辨認語料不足的問題。為增進語者辨認系統之強健性,我們提出一融合下層聲學與上層韻律訊息之架構,利用韻律訊息特徵分析(latent prosody analysis, LPA),量測不同語者間的韻律模型距離,並融合聲學模型(GMM)與韻律模型分數得到最後的辨識結果。LPA 主要是利用資訊檢索的概念將SID 問題轉化成全文檢索的問題,經由下列三步驟(1) 韻律訊息標示化( tokenization), (2) 韻律訊息分析(LPA)及(3)語者檢索(speaker retrieval) 實現利用韻律訊息之強健性語者辨識。 實驗使用 Handset TIMIT(HTIMIT)語料庫,以leave-one-out方式輪流使用九種不同的話筒當作未知話筒,驗證所提出之方法。實驗結果顯示,若以傳統 maximum likelihood a priori handset knowledge interpolation (ML-AKI) 的方法當作基礎(baseline),語者辨識率將可傳統pitch-GMM或 prosody bi-gram modeling 方法優異,無論對已知話筒和未知話筒皆能有效改善系統之強健性。 Handsets that are not seen in the training phase (unseen handsets) are significant sources of performance degradation for speaker identification (SID) applications in the telecommunication environment. In this thesis, a novel latent prosody analysis (LPA) approach to automatically extract the most discriminative prosody cues for assisting in conventional spectral feature-based SID is proposed. The concept of the LPA approach is to transform the SID problem into a full-text document retrieval-like task via (1) prosodic contour tokenization, (2) latent prosody analysis, and (3) speaker retrieval. Experimental results of the phonetically balanced, read-speech, handset-TIMIT (HTIMIT) database demonstrated that the proposed method of fusing the LPA prosodic feature-based SID systems with maximum likelihood a priori handset knowledge interpolation (ML-AKI) spectral feature-based SID outperformed both the pitch and energy Gaussian mixture model (Pitch-GMM) and the bi-gram of the prosodic state (bi-gram) counterparts for both cases of counting all and only unseen handsets.
    顯示於類別:[電機工程研究所] 博碩士論文

    文件中的檔案:

    檔案 大小格式瀏覽次數


    在NCUIR中所有的資料項目都受到原著作權保護.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明