結合生物微晶片實驗與電腦計算分析是目前研究癌症的一項新興科技,藉由上萬個基因表現來預測癌症的各項顯示特徵是否出現,甚至找出規則以瞭解癌症的成因,影響的方式,並且發展藥物療程來抑制癌症。不只癌症,任何未知的疾病都適用此方法。基因檢選對於分析生物微晶片資料是很重要的一個步驟,它可以讓我們知道哪些基因是對於疾病有判斷力及參與關鍵調控的;然而利用資訊工程方面的技術,如數值分析、機器學習、資料探勘來研究此議題會碰到兩個問題:「屬性維度太過巨大之問題」與「訓練模型過適之問題」於是我們希望設計出一套流程,能夠分析生物微晶片資料之後挑選出高度可能影響癌症的基因,這些基因有準確的鑑別力能建構一個順練分類模組,最後我們將以發表過的資料組與合作夥伴台大醫院的乳癌資料組作測試,發現我們的系統的確有非常好的準確性,經過資料探勘技術後的評價分析,我們相信可以減低訓練模組過適問題而達到預測的效果,讓擁有生物微晶片資料的生物學家能夠透過我們的系統流程分析,得到真正有鑑別力的基因,也許再用生物技術做驗證,大大減低實驗的經費與人力。 Gene selection can help to analyze microarray gene expression data. However, it is very difficult to classify a satisfied result by machine learning techniques because of a curse-of-dimensionality problem and an overfitting problem, i.e. the dimension of features is too large but the samples are too few. Therefore, we propose a system flow to attempt to avoid the two problems and then select a small set of significant biomarker genes for diagnosis in order to classify correctly. Furthermore, we』ll test on some microarray datasets to demonstrate that our system is useful and reliable with the good performance .研究期間:9601 ~ 9607