中大學術數位典藏-NCU Institutional Repository-提供博碩士論文、考古題、期刊論文、研究計畫等下載:Item 987654321/98322
English  |  正體中文  |  简体中文  |  全文笔数/总笔数 : 83956/83956 (100%)
造访人次 : 62572619      在线人数 : 522
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜寻范围 查询小技巧:
  • 您可在西文检索词汇前后加上"双引号",以获取较精准的检索结果
  • 若欲以作者姓名搜寻,建议至进阶搜寻限定作者字段,可获得较完整数据
  • 进阶搜寻


    jsp.display-item.identifier=請使用永久網址來引用或連結此文件: https://ir.lib.ncu.edu.tw/handle/987654321/98322


    题名: 透過整合基頻估計改善歌聲分離的輕量級即時人聲伴奏分離系統;A Lightweight Real-Time Karaoke System with Improved Singing Voice Separation via Fundamental Frequency Estimation Integration
    作者: 吳令暐;Wu, Ling-Wei
    贡献者: 電機工程學系
    关键词: 歌聲/伴奏分離;基頻估計;整合式遮罩;Singing Voice/Accompaniment separation;F0 estimation;Integrated mask
    日期: 2025-06-03
    上传时间: 2025-10-17 12:37:40 (UTC+8)
    出版者: 國立中央大學
    摘要: 隨著深度學習的快速發展,音樂源分離模型已取得顯著成果。然而,高品質的分離效果往往伴隨著複雜的模型架構,限制了即時應用的可能性。本研究針對 MMDenseNet 進行改進,提升歌聲分離性能,並開發了一套即時卡拉 OK 系統,能夠從播放的音樂中分離伴奏與人聲。我們將傳統的基頻估計 (Fundamental Frequency Estimation) 演算法融入複數比值遮罩(Complex ratio mask) 的估計,構建了一種整合式的複數遮罩框架。實驗結果顯示,我們的方法在 MUSDB18 數據集上表現優異,優於原始MMDenseNet,並且在所有對比方法中擁有最小的參數量。為了實現即時應
    用,我們重新設計模型,使用淺層神經網路學習傳統基頻估計,從而降低計
    算負擔。最終系統可在消費級電腦與 NVIDIA Jetson AGX Xavier 等邊緣設備上即時運行,展現出在卡拉 OK 及相關應用中的潛力。;With the fast-paced progress of deep learning, music source separation models have achieved impressive results. However, high separation quality often comes at the cost of complex architectures, limiting real-time performance. This study enhances singing voice separation by improving MMDenseNet and developing a real-time karaoke system that captures and separates accompaniment from played songs. We integrate traditional fundamental frequency (F0) estimation into complex ratio mask estimation, forming an integrated complex
    mask framework. Our approach outperforms the original MMDenseNet and ranks competitively on MUSDB18 dataset while maintaining the smallest parameter size among compared methods. To enable real-time applications, we redesign the
    model with a shallow neural network that learns from traditional F0 estimation. The final system runs in real-time on consumer-level PC and edge device such as NVIDIA Jetson AGX Xavier, demonstrating its potential for karaoke and related applications.
    显示于类别:[電機工程研究所] 博碩士論文

    文件中的档案:

    档案 描述 大小格式浏览次数
    index.html0KbHTML41检视/开启


    在NCUIR中所有的数据项都受到原著作权保护.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明