姓名 張美虹(Mei-hong Chang)
畢業系所 系統生物與生物資訊研究所
論文名稱 主成分分析與叢集分析於DNA微陣列數據前處理的應用與實作
(Application and Implementation of PCA and Clustering in DNA Microarray data Preprocessing)
摘要(中) 近年來,微陣列基因晶片的分析軟體越來越容易取得,卻也都不盡完善。商用或制式化的分析套件也限制了分析人員的分析效率、使用彈性。
此篇論文,為了改善基因晶片數據分析的品質與效率,建構更符合產業自產生物晶片分析流程。透過R統計語言的撰寫進行整合由其他人開發的分析軟體,並以建構了一個進行主成分分析(Principal Component Analysis,簡稱PCA)與叢集分析(Clustering)流程的模組。藉此取代先前使用的多種分析軟體,以自動化於微陣列晶片分析品質評估一環的主成分分析與叢集分析流程為訴求進行實作。
摘要(英) In order to improve the efficiency of quality assessment in microarray data preprocessing, an automated analysis pipeline for Clustering and PCA (principal component analysis) was developed using R language.
We successfully replaced the previously use of third-party analysis software, using the automated analysis module and integrated the module into the routine pipeline for microarray analysis.
The automated analysis pipeline for Principal Component Analysis and Clustering reduced processing time by almost 80% compared to previous approach, showing that the project goal was met. The R-based package is also flexible enough to be readily incorporated into other bioinformatics applications.
關鍵字(中) ★ 微陣列晶片
★ R語言
★ 主成分分析
★ 叢集分析
關鍵字(英) ★ Microarray
★ R language
★ Principal component analysis
★ Clustering
論文目次 中文摘要 i
Abstract ii
謝誌 iii
目錄 iv
圖目錄 vi
表目錄 viii
一、緒論 1
1-1 DNA微陣列 1
1-2 系統生物學 2
1-3 微陣列數據分析 5
1-3-1 主成分分析 6
1-3-2 叢集分析 7
1-4 研究動機 7
二、研究材料與方法 8
2-1 微陣列晶片資料 8
2-1-1 華聯生技微陣列晶片介紹 8
2-1-2 分析晶片資料內容 10
2-2 開發平台 11
2-2-1 R語言 11
2-2-2 RStudio 13
2-3 分析流程架構 14
2-3-1 原先分析結果產生流程 14
2-3-2 自動化分析結果產生流程 15
2-4 資料前處理程序 16
2-5 主成分分析方法與程序 17
2-6 階層式叢集分群法與分析程序 19
三、結果 21
3-1 主成分分析結果 21
3-1-1 與Array Track主成分分析結果比較 24
3-1-2 不同基因數據的主成分分析結果 25
3-2 群集分析結果 26
3-3 分析模組設置 30
3-3-1 必備文件 30
3-3-2參數設定 31
3-3-3 產出檔案對照 32
四、案例探討 33
4-1 案例分析(一) 編號1****102804 33
4-2 案例分析(二) 編號1****022401 37
4-3 案例分析(三) 編號2****101802 42
五、討論 47
六、結論 48
七、參考文獻 49
附錄一 51
附錄二 61
指導教授 王孫崇(Sun-chong Wang) 審核日期 2014-7-14
