文件之圖文分離及排版讀序之分析與發展;Page Segmentation and Reading Order Analysis and Development

NCU Institutional Repository > 資訊電機學院 > 資訊工程學系 > 研究計畫 > Item 987654321/57129

請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/57129

題名:	文件之圖文分離及排版讀序之分析與發展;Page Segmentation and Reading Order Analysis and Development
作者:	范國清;范子儀
貢獻者:	中央大學資訊工程學系
關鍵詞:	資訊科學--軟體;文件分析;圖文分離;讀序分析;Document analysis;Page segmentation;Order analysis
日期:	1995-09-01
上傳時間:	2012-10-01 15:14:44 (UTC+8)
出版者:	交通部
摘要:	本研究計畫主要提出一個文件圖文分離及文件排版讀序分析系統,計畫要點有二大部分: 一為文件之圖文分離,二為文件排版讀序分析. 一般文件基本上包含有文字、影像、圖形等各種不同性質的區塊.文件經過掃描器輸入電腦後,轉換成二位元、灰階、或彩色影像.文件分析的第一個工作便是將文件內的文字、影像、圖形等部分割成各個不同屬性的區塊.進而去判斷每一個分離出來之區塊的屬性,判斷它究竟是屬於文字、影像或圖形.判斷後的結果,不同屬性的區塊作不同的處理,以得到最佳化的處理結果.文字區塊使用文字識別(OCR)作辨識處理,將其由影像資料轉換為辨識結果的ASCII碼資料.影像區塊則作壓縮處理,去除其重複多餘的資料,以降低資料量.至於圖形部分則作向量化( Vectorization)處理,目的也是降低資料量,除此之外;向量化結果還具有容易修改、儲存、展示等優點.文字區塊在作文字識別辨識處理前,首先必須作切字的動作,將整段文字切成行再將行切分成字元.切字時不同性質的文字(比如中文、英文、數字、符號)有不同的切割方法,因此中文、英文、數字、符號的區分是在作切字時之重要研究課題.以上部分乃文件圖文分離之主要研究要點.至於文件之讀序分析,由於文件在美工以及排版上的考量,其文字區塊之讀序並不一定是電腦處理所採用的由左而右由上而下之順序,因此文件經過文字識別辨識處理後,其辨識結果常會發生文字段落錯縱複雜牛頭不對馬嘴不知所云的現象.為了避免此現象, 經過文字識別辨識後的文件,其文字段落必須要做讀序的分析,以產生正確的讀序.總合以上二大部分,乃本研究計畫所欲進行之要點. ; 研究期間 8307 ~ 8607
關聯:	財團法人國家實驗研究院科技政策研究與資訊中心
顯示於類別:	[資訊工程學系] 研究計畫

文件中的檔案:

檔案	描述	大小	格式	瀏覽次數
index.html		0Kb	HTML	436	檢視/開啟

在NCUIR中所有的資料項目都受到原著作權保護.

社群 sharing

資料載入中.....