摘要 根據我們的觀察,基因內不同相位的鹼基,其比例具有明顯的差異,且同一物種的基因比例相同,非編碼段各相位的鹼基則無分別,此種差異應是與密碼子第三碼的簡並特性,經過演化所偏好的選擇有關。 我們的研究關注於DNA上基因的辨識與搜尋,使用Perl電腦程式做為工具,將序列分為三個相位,並對序列的三個相位進行滑動窗口的分析,將各相位間字串出現頻率的差進行評分,並且將三個相位間的評分取平均值和標準差,依此判別一序列編碼的程度高低。 我們利用此法取70餘種細菌的基因、非編碼和隨機序列進行辨識,對不同長度的基因進行分析,訓練出最佳的辨識結果,以及其評分界線。 在基因搜尋當中,編碼區域的平均評分較高,且三個相位間的評分相差甚多,以此可預測基因在序列當中的位置。我們更發現,相位間評分的大小順序,表示基因內相位與序列座標相位間的關係,正反兩股共六個相位的基因皆有其不同的順序。 若是已知基因在序列座標中的相位,配合預測基因的位置,可大幅降低ORF搜尋的範圍以及訊號,甚至能找到正確的起始碼與終止碼配對。 In the bacteria genes, we can identify about 85 % coding part, if the gene large 1000, we can identify near 99 %. We search DNA sequence have 75 % coding location is correct. Read phase order of color can tell us real gene frame, that will help to find correct initiation and termination pair