您好,歡迎來到易龍商務網!
發布時間:2021-03-23 15:25  
【廣告】





文字特征抽取:單以識別率而言,特征抽取可說是 OCR的核心,用什么特征、怎么抽取,直接影響識別的好壞,也所以在OCR研究初期,特征抽取的研究報告特別的多。而特征可說是識別的籌碼,簡易的區分可分為兩類:一為統計的特征,如文字區域內的黑/白點數比,當文字區分成好幾個區域時,這一個個區域黑/白點數比之聯合,就成了空間的一個數值向量,在比對時,基本的數學理論就足以應付了。而另一類特征為結構的特征,如文字影像細線化后,取得字的筆劃端點、交叉點之數量及位置,或以筆劃段為特征,配合特殊的比對方法,進行比對,市面上的線上手寫輸入軟件的識別方法多以此種結構的方法為主。
字詞后處理:由于OCR的識別率并無法達到,或想加強比對的正確性及信心值,一些除錯或甚至幫忙更正的功能,也成為OCR系統中必要的一個模塊。字詞后處理就是一例,利用比對后的識別文字與其可能的相似候選字群中,根據前后的識別文字找出合乎邏輯的詞,做更正的功能。字詞數據庫:為字詞后處理所建立的詞庫。OCR后的關卡,在此之前,使用者可能只是拿支鼠標,跟著軟件設計的節奏操作或僅是觀看,而在此有可能須特別花使用者的精神及時間,去更正甚至找尋可能是OCR出錯的地方。