OCR 图像矫正

栏目: R语言 · 发布时间: 6年前

内容简介:OCR(Optical Character Recognition,光学字符识别)是指电子设备检查纸上字符然后用字符识别方法将形状翻译成计算机文字的过程;采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。一般来说,OCR分为分割和识别两个部分。此文将探讨分割问题。通常我们第一步是将用户传入的照片进行扫描,提取待识别的区域,也就如图下面将文件抠出来。

OCR(Optical Character Recognition,光学字符识别)是指电子设备检查纸上字符然后用字符识别方法将形状翻译成计算机文字的过程;采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

一般来说,OCR分为分割和识别两个部分。此文将探讨分割问题。

通常我们第一步是将用户传入的照片进行扫描,提取待识别的区域,也就如图下面将文件抠出来。

OCR 图像矫正 OCR 图像矫正

具体步骤:

(1)获取文件轮廓

(2)获取文件四角的点坐标

(3)透视变换

导入库

import numpy as np
import cv2
import matplotlib.pyplot as plt
import math请输入代码

获取文件轮廓

image = cv2.imread('原始照片.jpg')                                             #读原始照片
gray = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)                                 #二值化
gray = cv2.GaussianBlur(gray, (5, 5), 0)                                      #高斯滤波
kernel = np.ones((3,3),np.uint8)  
dilation = cv2.dilate(gray,kernel)                                            #膨胀
edged = cv2.Canny(dilation, 30, 120)                                          #边缘提取
_, cnts, hierarchy = cv2.findContours(edged,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_NONE)
cv2.drawContours(image,cnts,-1,(0,0,255),3)

OCR 图像矫正

获取文件四角点的坐标

cnts0=cnts[0]
cnts1=cnts[1]

rect = np.zeros((4,2), dtype="float32")

rect[0] = cnts1[np.argmin(np.sum(cnts1,axis=-1))]
rect[2] = cnts0[np.argmax(np.sum(cnts0,axis=-1))]
rect[1] = cnts1[np.argmin(np.diff(cnts1,axis=-1))]
rect[3] = cnts0[np.argmax(np.diff(cnts0,axis=-1))]

四角点的顺序:左上,右上,右下,左下

左上坐标和最小,右下坐标和最大

右上坐标差最小,左下坐标差最大(Y-X)

OCR 图像矫正

根据四角点坐标求矫正后图像的尺寸

(tl,tr,br,bl) = rect
    
width1 = np.sqrt(((tr[0]-tl[0])**2)+((tr[1]-tl[1])**2))
width2 = np.sqrt(((br[0]-bl[0])**2)+((br[1]-bl[1])**2))
width = max(int(width1),int(width2))
    
height1 = np.sqrt(((tr[0]-br[0])**2)+((tr[1]-br[1])**2))
height2 = np.sqrt(((tl[0]-bl[0])**2)+((tl[1]-bl[1])**2))
height = max(int(height1),int(height2))
    
dst = np.array([
    [0, 0],
    [width - 1, 0],
    [width - 1, height - 1],
    [0, height - 1]], dtype = "float32")

OCR 图像矫正

透视变换

M = cv2.getPerspectiveTransform(rect, dst)
warped = cv2.warpPerspective(image, M, (width, height))

OCR 图像矫正


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

The Definitive Guide to MongoDB

The Definitive Guide to MongoDB

Peter Membrey、Wouter Thielen / Apress / 2010-08-26 / USD 44.99

MongoDB, a cross-platform NoSQL database, is the fastest-growing new database in the world. MongoDB provides a rich document orientated structure with dynamic queries that you’ll recognize from RDMBS ......一起来看看 《The Definitive Guide to MongoDB》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

SHA 加密
SHA 加密

SHA 加密工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换