建立專屬語音模型：從教師克隆音檔到專業術語強化逐字稿;Building a Personalized Voice Model: from Teacher Audio Cloning to Terminology-Enhanced Transcripts

NCU Institutional Repository > 資訊電機學院 > 資訊工程學系 > 研究計畫 > Item 987654321/99031

請使用永久網址來引用或連結此文件: https://ir.lib.ncu.edu.tw/handle/987654321/99031

題名:	建立專屬語音模型：從教師克隆音檔到專業術語強化逐字稿;Building a Personalized Voice Model: from Teacher Audio Cloning to Terminology-Enhanced Transcripts
作者:	吳曉光
貢獻者:	國立中央大學資訊工程學系
關鍵詞:	語音辨識;語音克隆;教師專屬模型;逐字稿;語音合成;語意生成;教育科技;ASR 微調;自動化教材處理;大型語言模型;Automatic Speech Recognition (ASR);Voice Cloning;Teacher-Specific Model;Transcription;Text-to-Speech (TTS);Language Model;Fine-Tuning;Education Technology;Audio-Text Pairing;Semantic Expansion
日期:	2026-01-22
上傳時間:	2026-01-23 16:28:50 (UTC+8)
出版者:	國家科學及技術委員會(本會)
摘要:	本計畫以教育場域為核心應用場景，提出一套創新且可擴展的技術流程，用以建構教師專屬語音辨識模型，解決目前逐字稿在真實教學情境中面臨的辨識錯誤與人工修正負擔問題。隨著遠距教學與數位教材的普及，課堂錄音與逐字稿已成為學生複習與知識資料庫建構的重要資源。然而，現有語音辨識模型多數為通用系統，對於教師個人說話風格、課程中大量的專業術語或文言句型，仍有明顯錯誤率，降低其實用價值與推廣效益。為回應此一需求，本計畫提出一套整合語音克隆、語意生成與語音辨識微調的流程。首先，藉由語音克隆技術，僅需極少量樣本即可快速合成教師個人風格一致的語音資料，解決傳統錄音建模成本過高問題。接著，應用大型語言模型自教學講義與簡報中擷取重要概念與專有名詞，並生成具教學脈絡的延伸說明文字，形成可用於模型訓練的語意對應資料。最後，將合成語音與生成文本配對，構建語音辨識微調資料集，針對教師個別語音特徵與課程專業詞彙進行模型優化，以顯著提升辨識準確率。此技術路徑具備高度自動化與通用性，能快速複製至不同教師與課程領域，未來可應用於智慧教室、數位學習平台、補教教材產製與校內教學知識管理等多元場景。整體而言，本計畫不僅提升語音辨識系統在教育現場的實用性與可行性，也為教學科技導入人工智慧模型建立了具體且可落地的技術架構，對推動數位教育品質升級與語音資料應用價值提升具有重要意義。
關聯:	財團法人國家實驗研究院科技政策研究與資訊中心
顯示於類別:	[資訊工程學系] 研究計畫

文件中的檔案:

檔案	描述	大小	格式	瀏覽次數
index.html		0Kb	HTML	93	檢視/開啟

在NCUIR中所有的資料項目都受到原著作權保護.

社群 sharing

資料載入中.....