English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 78728/78728 (100%)
造訪人次 : 33350497      線上人數 : 421
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library IR team.
搜尋範圍 查詢小技巧:
  • 您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
  • 若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
  • 進階搜尋


    請使用永久網址來引用或連結此文件: http://ir.lib.ncu.edu.tw/handle/987654321/57129


    題名: 文件之圖文分離及排版讀序之分析與發展;Page Segmentation and Reading Order Analysis and Development
    作者: 范國清;范子儀
    貢獻者: 中央大學資訊工程學系
    關鍵詞: 資訊科學--軟體;文件分析;圖文分離;讀序分析;Document analysis;Page segmentation;Order analysis
    日期: 1995-09-01
    上傳時間: 2012-10-01 15:14:44 (UTC+8)
    出版者: 交通部
    摘要: 本研究計畫主要提出一個文件圖文分離及 文件排版讀序分析系統,計畫要點有二大部分: 一為文件之圖文分離,二為文件排版讀序分析. 一般文件基本上包含有文字、影像、圖形等各 種不同性質的區塊.文件經過掃描器輸入電腦 後,轉換成二位元、灰階、或彩色影像.文件分 析的第一個工作便是將文件內的文字、影像、 圖形等部分割成各個不同屬性的區塊.進而去 判斷每一個分離出來之區塊的屬性,判斷它究竟是屬於文字、影像或圖形.判斷後的結果,不 同屬性的區塊作不同的處理,以得到最佳化的 處理結果.文字區塊使用文字識別(OCR)作辨識處 理,將其由影像資料轉換為辨識結果的ASCII碼資 料.影像區塊則作壓縮處理,去除其重複多餘的 資料,以降低資料量.至於圖形部分則作向量化( Vectorization)處理,目的也是降低資料量,除此之 外;向量化結果還具有容易修改、儲存、展示 等優點.文字區塊在作文字識別辨識處理前,首 先必須作切字的動作,將整段文字切成行再將 行切分成字元.切字時不同性質的文字(比如中 文、英文、數字、符號)有不同的切割方法,因 此中文、英文、數字、符號的區分是在作切字 時之重要研究課題.以上部分乃文件圖文分離 之主要研究要點.至於文件之讀序分析,由於文 件在美工以及排版上的考量,其文字區塊之讀 序並不一定是電腦處理所採用的由左而右由上 而下之順序,因此文件經過文字識別辨識處理 後,其辨識結果常會發生文字段落錯縱複雜牛 頭不對馬嘴不知所云的現象.為了避免此現象, 經過文字識別辨識後的文件,其文字段落必須 要做讀序的分析,以產生正確的讀序.總合以上二大部分,乃本研究計畫所欲進行之要點. ; 研究期間 8307 ~ 8607
    關聯: 財團法人國家實驗研究院科技政策研究與資訊中心
    顯示於類別:[資訊工程學系] 研究計畫

    文件中的檔案:

    檔案 描述 大小格式瀏覽次數
    index.html0KbHTML441檢視/開啟


    在NCUIR中所有的資料項目都受到原著作權保護.

    社群 sharing

    ::: Copyright National Central University. | 國立中央大學圖書館版權所有 | 收藏本站 | 設為首頁 | 最佳瀏覽畫面: 1024*768 | 建站日期:8-24-2009 :::
    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library IR team Copyright ©   - 隱私權政策聲明