姓名 秦聖昌(Sheng-Chang Chin)
畢業系所 資訊管理學系在職專班
論文名稱 支援向量機於乳癌預測之研究
摘要(中) 隨著科技的發達,資料產生的數量越來越多,進入了Big Data的時代,透過資料探勘的技術,可以挖掘出更多的知識或是有趣的內容,也能夠做更好的預測。本研究針對醫療資料中的乳癌資料集進行實驗,透過兩個資料大小差異的乳癌資料集探勘後的數據進行分析,根據特徵選取後所取得資料與原始資料做比較,使用單一分類器及多重分類器搭配不同的核心參數進行實驗。透過所得實驗數據,評估那一種分類器及參數的搭配使用,能夠取得較好的效能時間及正確率,如此可使日後研究及預測上能夠有較好的依據,並能夠輔助做出好的決策。


摘要(英) Breast cancer prediction is an important problem in the medical and healthcare communities. In particular, various data mining techniques have been employed to construct the prediction models. Since support vector machines (SVM) are the core machine learning technique and they have shown their outperformance than many other related techniques over many pattern classification problems, very few explore the performances of SVM using different learning functions in breast cancer prediction. Therefore, the aim of this thesis is to use the three well-known kernel functions to develop different SVM classifiers, which are the linear, polynomial, and RBF (radial basis function) kernels, to assess their prediction performances. Moreover, the classifier ensemble techniques based on bagging and boosting are also applied to construct the SVM ensemble classifiers. The experimental results based on two related datasets show that boosting based SVM based on the RBF kernel function performs the best in terms of prediction accuracy and ROC.
關鍵字(中) ★ 支援向量機 關鍵字(英) ★ SVM
★ GA
★ Bagging
★ boosting
★ polynomial
★ Linear
★ Kernel function
論文目次 摘要 i

Abstract ii

誌謝 iii

目錄 iv

圖目錄 vi

表目錄 vii

第一章 前言 1

1.1 研究背景 1

1.2 研究動機 1

1.3 研究目的 2

1.4 研究步驟 4

第二章 文獻探討 5

2.1 監督式學習(Supervised learning) 5

2.2 支援向量機(SVM: Support Vector Machine) 5

2.3 前處理(Data Preprocessing) 7

2.3.1特徵選取(feature selection) 7

2.3.2基因演算法(Genetic Algorithms) 8

2.4 多重分類器 9

2.4.1 Bagging 9

2.4.2 Boosting 9

2.5 相關文獻 10

第三章 研究方法 11

3.1 實驗資料集(datasets) 12

3.2 實驗特徵選取(feature selection) 13

3.3 單一分類器之設計 14

3.4 多重分類器設計 16

3.4.1 使用Bagging 16

3.4.2 使用Boosting 17

3.5 評估方法 19

第四章 實驗結果 20

4.1 單一分類器輸出結果 20

4.1.1 單一分類器輸出結果時間分析 22

4.1.2 單一分類器輸出結果正確率分析 23

4.2 多重分類器輸出結果 24

4.2.1 多重分類器輸出結果時間分析 28

4.2.2 多重分類器輸出結果正確率分析 30

4.3 實驗結論 32

4.3.1 單一分類器實驗結論 32

4.3.2 多重分類器實驗結論 33

第五章 研究結論 35

5.1 研究限制 35

5.2 研究貢獻 35

5.3 未來研究方向 36

參考文獻 37

附錄一 40

附錄二 41

附錄三 43

附錄四 44

附錄五 45

附錄六 46

附錄七 48

指導教授 蔡志豐 審核日期 2015-8-26
