姓名 吳紹暉(Shao-Hui Wu)  查詢紙本館藏   畢業系所 資訊工程學系
論文名稱 具潛藏語意的階層型表示應用於音訊以及影像分類
(Latent Semantic Learning with Hierarchical Representation for Audio and Image Classification)
摘要(中) 階層式的分類是一種用來處理分類問題的常用架構,例如,在一個超級市場要買一瓶洗髮精,我們可能會先找到生活用品區,再找到沐浴用品區,最後拿到洗髮精;或是在很餓的時候,我們可能會先選擇吃麵或是吃飯,再來選擇要吃義大利麵、拉麵或是一般的家常麵,最後找到想吃的東西。本論文提出了一種基於高斯階層型潛在狄氏配置(Gaussian Hierarchical Latent Dirichlet Allocation , G-hLDA)的特徵表示法。我們藉由樹狀架構,將以音框為基底(Frame-Level)的特徵參數,例如,MFCC,經過每個階層分群成數個類別,並應用於音訊以及影像的分類問題。不同於一般的特徵表示方法,在我們提出的階層式架構中,可以藉由樹狀的結構得知類別間的相似程度,此外,我們提出的特徵表示也能擷取音訊及影像背後的潛藏語意。在模型中,我們將每個音檔或圖片視為主題模型中的文檔(document),將以音框為基礎(frame-level)的特徵視為字詞(word),尋找每個音檔或圖檔的潛在主題(latent topic),利用巢狀式中國餐廳程序(Nested Chinese Restaurant Process, nCRP)來建構潛在主題間的樹狀結構。這個方法相較於階層式潛在狄氏配置(Hierarchical Latent Dirichlet Allocation , hLDA)可以直接處理從資料中擷取的特徵,能減少因向量化而造成的量化誤差,而相較於高斯潛在狄氏配置(Gaussian latent Dirichlet allocation, G-LDA),能找出潛在主題間的階層性,並解決模型選擇(Model Selection)的問題。
Hierarchical classification is one of the most popular method to deal with the classification problems. For example, the items organized hierarchically in shopping website or the book store. In our work, we proposes a topic model for discovering the hierarchical latent characteristics behind the frame-level features. In our model, frame-level features are regarded as words, clip-level feature are regarded as document. A Gaussian hierarchical latent Dirichlet allocation (G-hLDA) is proposed to fnd the latent topics behind the continuous features. Unlike other method, Ghlda can capture latent semantic and construct tree-structured representation. We use the nested Chinese restaurant process (nCRP) as the prior distribution for the tree-structured model.Compared to Hierarchical Latent Dirichlet Allocation (hLDA),the G-hLDA directly handles the continuous features instead of transforming them into discrete words, reducing information loss from discretization-based vector quantization. It can constructs the tree-structured representation for continuous features directly. Compared to Gaussian latent Dirichlet allocation(G-LDA), it can find the Hierarchical behind latent topic and solved the problem of model selection.
In this paper, we do our experiments on audio classification and image classification problem. In the part of audio classification, we use the guitar techniques dataset. On other hand, natural scene dataset is used in image classification.The experimental results demonstrate that the proposed method outperforms baselines in terms of the F-score and the accuracy.
關鍵字(中) ★ 階層型表示法
★ 階層型潛在狄式配置
★ 高斯成分
關鍵字(英) ★ Hierarchical Representation
★ Hierarchical Latent Dirichlet Allocation
★ Gaussian Component
摘要 ii
Abstract iii
章節目次 iv
圖目錄 viii
表目錄 ixx
第一章 緒論 1
1.1 前言 1
1.2 研究動機與目的 1
1.3 論文架構與章節概要 2
第二章 相關文獻探討 3
2.1 音訊特徵 3
2.1.1 時頻圖 3
2.1.2 線性預估係數(Linear Prediction Coefficients, LPC) 4
2.1.3 色度特徵(Chroma Feature) 5
2.1.4 梅爾頻譜(Mel-spectrum) 5
2.1.5 梅爾頻率倒譜系數 (Mel-Frequency Cepstral Coefficients, MFCCs) 6
2.2 影像特徵 7
2.2.1 局部二值模式(Local Binary Patterns, LBP) 7
2.2.2 方向梯度直方(Histogram of oriented gradient, HOG) 8
2.2.3 尺度不變特徵轉換(Scale-invariant feature transform, SIFT) 8
2.2.4 加速穩健特徵(Speeded Up Robust Features, SURF) 9
2.2.5 SPM (Spatial pyramid matching, SPM) 9
2.3 特徵學習 10
2.3.1 基於編碼簿的特徵表示法(Codebook based Feature Representation) 10 向量量化編碼(Vector Quantization, VQ) 11 稀疏編碼(Sparse Coding, SC) 12 非負矩陣分解(Nonnegative Matrix Factorization, NMF) 13
2.3.2 主題模型表示法(Topic Model based Feature Representation) 14潛在狄式配置(Latent Dirichlet Allocation, LDA) 15監督式潛在狄式配置(supervised Latent Dirichlet Allocation, sLDA) 17高斯潛在狄式配置(Gaussian Latent Dirichlet Allocation, GLDA) 18階層型潛在狄式配置(Hierarchical Latent Dirichlet Allocation, hLDA) 19
第三章 具潛藏語意的階層型表示 22
3.1 系統簡介 22
3.2 支持向量機(Support Vector Machine, SVM) 22
3.3 高斯階層式潛在狄氏配置(Gaussian Hierarchical Latent Dirichlet Allocation, Gaussian-hLDA) 24
3.3.1 模型介紹 29
3.3.2 模型推論 32
3.3.3 考慮鑑別性因素之事前機率(Discriminative term) 34
3.3.4 特徵參數的形成 34
3.3.5 演算法介紹 36
第四章 實驗結果 37
4.1 實驗配置 37
4.2 實驗分析 38
4.2.1 收斂分析 38
4.2.2 深度影響 39
4.2.3 階層型表示的鑑別能力 40
4.3 實驗結果 43
4.3.1 音訊分類實驗結果 43
4.3.2 影像分類實驗結果 45
第五章 結論及未來研究方向 47
參考文獻 48
指導教授 王家慶(Jai-Ching Wang) 審核日期 2017-8-18
