OCR字符检测的两种方法:与其他信息数据一样,计算机中所有扫描仪捕捉到的图像和文本信息都是用0和1两位数字记录和识别的,所有信息都只是存储在0和1中的一系列点或采样点,OCR识别程序主要通过单元模式匹配法和特征提取法对页面上的字符信息进行识别。
OCR字符检测单元模式匹配识别方法是将每个字符与一个具有标准字体和字号位图的文件进行比较。如果应用程序有一个保存字符的大型数据库,应用程序将选择适当的字符进行正确匹配。软件使用一些处理技术来找到相似的匹配项,通常是通过不断试验同一字符的不同版本。
一些新字符可以通过扫描每一页文本来定义,有些软件利用自己的识别技术,尽力识别页面上的字符,然后手工选择或直接输入未识别的字符。
OCR字符检测特征提取是将每个字符分解成许多不同的字符特征,包括斜线、水平线和曲线。然后,将这些特征与理解的字符匹配。例如,如果应用程序识别出两条水平线,它会“认为”字符可能是“2”。特征提取方法的优点是可以识别多种字体。例如,利用特征提取方法实现汉字识别。
大多数OCR字符检测应用都增加了语法智能检查功能,进一步提高了识别率。它主要通过上下文检查的方法来实现拼写和语法更正。在单词识别中,OCR字符检测应用程序会进行许多上下文衔接检查,并根据程序中现有的短语和固定的词序来检查字符串中的单词。更先进的应用软件会自动用正确的单词替换错误的单词,并更正句子的意思。