您好,歡迎來到易龍商務網!
發布時間:2021-04-23 03:21  
【廣告】





20世紀70年代初,日本的學者開始研究漢字識別,并做了大量的工作。中國在OCR技術方面的研究工作起步較晚,在70年代才開始對數字、英文字母及符號的識別進行研究,70年代末開始進行漢字識別的研究,到1986年,我國提出“863”高新科技研究計劃,漢字識別的研究進入一個實質性的階段,清華大學的丁曉青和中科院分別開發研究,相繼推出了中文OCR產品,現為中國漢字OCR技術。
文字特征抽取:單以識別率而言,特征抽取可說是 OCR的核心,用什么特征、怎么抽取,直接影響識別的好壞,也所以在OCR研究初期,特征抽取的研究報告特別的多。而特征可說是識別的籌碼,簡易的區分可分為兩類:一為統計的特征,如文字區域內的黑/白點數比,當文字區分成好幾個區域時,這一個個區域黑/白點數比之聯合,就成了空間的一個數值向量,在比對時,基本的數學理論就足以應付了。而另一類特征為結構的特征,如文字影像細線化后,取得字的筆劃端點、交叉點之數量及位置,或以筆劃段為特征,配合特殊的比對方法,進行比對,市面上的線上手寫輸入軟件的識別方法多以此種結構的方法為主。
一個好的OCR軟件,除了有一個穩定的影像處理及識別核心,以降低錯誤率外,人工校正的操作流程及其功能,亦影響OCR的處理效率,因此,文字影像與識別文字的對照,及其屏幕信息擺放的位置、還有每一識別文字的候選字功能、拒認字的功能、及字詞后處理后特意標示出可能有問題的字詞,都是為使用者設計盡量少使用鍵盤的一種功能,當然,不是說系統沒顯示出的文字就一定正確,就像完全由鍵盤輸入的工作人員也會有出錯的時候,這時要重新校正一次或能允許些許的錯,就完全看使用單位的需求了。結果輸出