OCR 图像矫正

栏目: R语言 · 发布时间: 5年前

内容简介：OCR（Optical Character Recognition，光学字符识别）是指电子设备检查纸上字符然后用字符识别方法将形状翻译成计算机文字的过程；采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。一般来说，OCR分为分割和识别两个部分。此文将探讨分割问题。通常我们第一步是将用户传入的照片进行扫描，提取待识别的区域，也就如图下面将文件抠出来。

OCR（Optical Character Recognition，光学字符识别）是指电子设备检查纸上字符然后用字符识别方法将形状翻译成计算机文字的过程；采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

一般来说，OCR分为分割和识别两个部分。此文将探讨分割问题。

通常我们第一步是将用户传入的照片进行扫描，提取待识别的区域，也就如图下面将文件抠出来。

OCR 图像矫正

具体步骤：

（1）获取文件轮廓

（2）获取文件四角的点坐标

（3）透视变换

导入库

import numpy as np
import cv2
import matplotlib.pyplot as plt
import math请输入代码

获取文件轮廓

image = cv2.imread('原始照片.jpg')                                             #读原始照片
gray = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)                                 #二值化
gray = cv2.GaussianBlur(gray, (5, 5), 0)                                      #高斯滤波
kernel = np.ones((3,3),np.uint8)  
dilation = cv2.dilate(gray,kernel)                                            #膨胀
edged = cv2.Canny(dilation, 30, 120)                                          #边缘提取
_, cnts, hierarchy = cv2.findContours(edged,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_NONE)
cv2.drawContours(image,cnts,-1,(0,0,255),3)

OCR 图像矫正

获取文件四角点的坐标

cnts0=cnts[0]
cnts1=cnts[1]

rect = np.zeros((4,2), dtype="float32")

rect[0] = cnts1[np.argmin(np.sum(cnts1,axis=-1))]
rect[2] = cnts0[np.argmax(np.sum(cnts0,axis=-1))]
rect[1] = cnts1[np.argmin(np.diff(cnts1,axis=-1))]
rect[3] = cnts0[np.argmax(np.diff(cnts0,axis=-1))]

四角点的顺序：左上，右上，右下，左下

左上坐标和最小，右下坐标和最大

右上坐标差最小，左下坐标差最大（Y-X）

OCR 图像矫正

根据四角点坐标求矫正后图像的尺寸

(tl,tr,br,bl) = rect
    
width1 = np.sqrt(((tr[0]-tl[0])**2)+((tr[1]-tl[1])**2))
width2 = np.sqrt(((br[0]-bl[0])**2)+((br[1]-bl[1])**2))
width = max(int(width1),int(width2))
    
height1 = np.sqrt(((tr[0]-br[0])**2)+((tr[1]-br[1])**2))
height2 = np.sqrt(((tl[0]-bl[0])**2)+((tl[1]-bl[1])**2))
height = max(int(height1),int(height2))
    
dst = np.array([
    [0, 0],
    [width - 1, 0],
    [width - 1, height - 1],
    [0, height - 1]], dtype = "float32")

OCR 图像矫正

透视变换

M = cv2.getPerspectiveTransform(rect, dst)
warped = cv2.warpPerspective(image, M, (width, height))

OCR 图像矫正

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Data-intensive Text Processing With Mapreduce

Jimmy Lin、Chris Dyer / Morgan and Claypool Publishers / 2010-4-30 / USD 40.00

Our world is being revolutionized by data-driven methods: access to large amounts of data has generated new insights and opened exciting new opportunities in commerce, science, and computing applicati......一起来看看《Data-intensive Text Processing With Mapreduce》这本书的介绍吧!

码农工具

OCR 图像矫正

Data-intensive Text Processing With Mapreduce

图片转BASE64编码

随机密码生成器

HEX CMYK 转换工具