摘要: | 本研究計畫主要提出一個文件圖文分離及 文件排版讀序分析系統,計畫要點有二大部分: 一為文件之圖文分離,二為文件排版讀序分析. 一般文件基本上包含有文字、影像、圖形等各 種不同性質的區塊.文件經過掃描器輸入電腦 後,轉換成二位元、灰階、或彩色影像.文件分 析的第一個工作便是將文件內的文字、影像、 圖形等部分割成各個不同屬性的區塊.進而去 判斷每一個分離出來之區塊的屬性,判斷它究竟是屬於文字、影像或圖形.判斷後的結果,不 同屬性的區塊作不同的處理,以得到最佳化的 處理結果.文字區塊使用文字識別(OCR)作辨識處 理,將其由影像資料轉換為辨識結果的ASCII碼資 料.影像區塊則作壓縮處理,去除其重複多餘的 資料,以降低資料量.至於圖形部分則作向量化( Vectorization)處理,目的也是降低資料量,除此之 外;向量化結果還具有容易修改、儲存、展示 等優點.文字區塊在作文字識別辨識處理前,首 先必須作切字的動作,將整段文字切成行再將 行切分成字元.切字時不同性質的文字(比如中 文、英文、數字、符號)有不同的切割方法,因 此中文、英文、數字、符號的區分是在作切字 時之重要研究課題.以上部分乃文件圖文分離 之主要研究要點.至於文件之讀序分析,由於文 件在美工以及排版上的考量,其文字區塊之讀 序並不一定是電腦處理所採用的由左而右由上 而下之順序,因此文件經過文字識別辨識處理 後,其辨識結果常會發生文字段落錯縱複雜牛 頭不對馬嘴不知所云的現象.為了避免此現象, 經過文字識別辨識後的文件,其文字段落必須 要做讀序的分析,以產生正確的讀序.總合以上二大部分,乃本研究計畫所欲進行之要點. ; 研究期間 8307 ~ 8607 |