姓名 姚冠廷(Guan-Ting Yao)
論文名稱 兩階段混合式前處理方法於類別非平衡問題之研究
論文名稱 兩階段混合式前處理方法於類別非平衡問題之研究
(A Two-Stage Hybrid Data Preprocessing Approach for the Class Imbalance Problem)
摘要(中) 類別非平衡(Class Imbalance)問題是資料探勘領域中重要且頻繁發生的議題,此現象發生於資料集中某一類別樣本數大於另一類別樣本數時,導致資料產生偏態分布,此時,傳統分類器為了追求高分類正確率,建立出的預測模型將會傾向將小類樣本(Minority Class)誤判為大類樣本(Majority Class),導致珍貴的少類樣本無法建立出良好的分類規則,這樣的現象在真實世界中也越來越常見,舉凡醫學診斷、錯誤偵測、臉部辨識等不同領域都經常發生資料的類別非平衡現象。

為了解決類別非平衡問題,本論文提出一個以分群技術為基礎結合樣本選取(Instance Selection)的資料取樣概念,嘗試從大類樣本挑選出具有代表性的資料,形成一個兩階段混合式的資料前處理架構,這樣的架構除了有效減少抽樣誤差、降低資料的類別非平衡比率(Imbalance Ratio)、減少分類器的訓練時間外,還可以提升分類的正確率。

The class imbalance problem is an important issue in data mining. The class skewed distribution occurs when the number of examples that represent one class is much lower than the ones of the other classes. The traditional classifiers tend to misclassify most samples in the minority class into the majority class because of maximizing the overall accuracy. This phenomenon limits the construction of effective classifiers for the precious minority class. This problem occurs in many real-world applications, such as fault diagnosis, medical diagnosis and face recognition.

To deal with the class imbalance problem, I proposed a two-stage hybrid data preprocessing framework based on clustering and instance selection techniques. This approach filters out the noisy data in the majority class and can reduce the execution time for classifier training. More importantly, it can decrease the effect of class imbalance and perform very well in the classification task.

Our experiments using 44 class imbalance datasets from KEEL to build four types of classification models, which are C4.5, k-NN, Naïve Bayes and MLP. In addition, the classifier ensemble algorithm is also employed. In addition, two kinds of clustering techniques and three kinds of instance selection algorithms are used in order to find out the best combination suited for the proposed method. The experimental results show that the proposed framework performs better than many well-known state-of-the-art approaches in terms of AUC. In particular, the proposed framework combined with bagging based MLP ensemble classifiers perform the best, which provide 92% of AUC.
關鍵字(中) ★ 類別不平衡
★ 資料探勘
★ 分類
★ 分群
★ 樣本選取
關鍵字(英) ★ Class imblanace
★ data mining
★ classification
★ clustering
★ instance selection
摘要 i
Abstract ii
致謝 iii
目錄 iv
圖目錄 vi
表目錄 viii
第一章 緒論 1
1.1 研究背景 1
1.2 研究動機 2
1.3 研究目的 5
1.4 研究架構 6
第二章 文獻探討 8
2.1 類別非平衡問題 8
2.2 類別非平衡問題之處理 10
2.2.1 資料層面 10
2.2.2 演算法層面 12
2.2.3 成本敏感法 13
2.3 類別非平衡問題評估指標 14
2.4 樣本選取 16
2.4.1 IB3 17
2.4.2 DROP3 19
2.4.3 GA 21
2.5 機器學習演算法 25
2.5.1 非監督式學習演算法 25
2.5.2 監督式學習演算法 31
2.5.3 整體學習法 36
第三章 研究方法 39
3.1 實驗架構 39
3.2 CBIS前處理架構 41
3.2.1 CBIS階段一: 資料分群 41
3.2.2 CBIS階段二: 樣本選取 42
3.2.3 CBIS虛擬碼(pseudo-code) 43
3.2.4 CBIS架構之適用性分析 43
3.3 方法驗證 44
3.4 相關架構比較 45
第四章 實驗結果 47
4.1 實驗準備 47
4.1.1 軟硬體設置 47
4.1.2 實驗資料集 48
4.2 實驗結果-Using Affinity Propagation clustering 52
4.2.1 以C4.5決策樹為基礎之分析 54
4.2.2 不同種類分類器之表現分析 57
4.2.3 不同樣本選取方法之正確率比較 61
4.2.4 類別非平衡比率相關討論 65
4.3 實驗結果-Using K-means clustering 69
4.3.1 以C4.5決策樹演算法為基礎之分析 69
4.3.2 不同分類器為基礎之表現分析 75
4.3.3 不同樣本選取方法之正確率比較 76
4.3.4 類別非平衡比率相關討論 79
4.4 實驗總結 86
第五章 結論 87
5.1 結論與貢獻 87
5.2 未來研究方向與建議 89
參考文獻 91

指導教授 蔡志豐 審核日期 2017-7-14
