当前位置：首页 > 科技 > 软件

如何使用Python中的OCR技术将图像中的文本提取为可编辑文件？

来源：责编：时间：2023-09-28 10:07:55 450观看

导读1、安装和配置Pytesseract库Pytesseract是Python的一个OCR库，它是Tesseract OCR引擎的Python封装。在使用Pytesseract之前，需要先安装Tesseract OCR引擎和Pytesseract库。可以使用以下命令在Linux系统中安装Tesseract O

1、安装和配置Pytesseract库

Pytesseract是Python的一个OCR库，它是Tesseract OCR引擎的Python封装。在使用Pytesseract之前，需要先安装Tesseract OCR引擎和Pytesseract库。可以使用以下命令在Linux系统中安装Tesseract OCR和Pytesseract库：

sudo apt-get install tesseract-ocrsudo apt-get install libtesseract-devpip install pytesseract

在Windows系统中，可以从Tesseract OCR的官方网站（https://github.com/UB-Mannheim/tesseract/wiki）下载安装包，然后使用以下命令安装Pytesseract库：

pip install pytesseract

2、识别图片中的文本

使用Pytesseract库识别图片中的文本非常简单。首先，需要导入pytesseract模块和PIL模块（用于打开和处理图片）。然后，可以使用pytesseract.image_to_string()函数来识别图片中的文本。以下是一个简单的示例：

import pytesseractfrom PIL import Image# 打开图片img = Image.open('example.png')# 识别图片中的文本text = pytesseract.image_to_string(img, lang='eng')# 打印识别的文本print(text)

在上面的示例中，pytesseract.image_to_string()函数接受两个参数：要识别的图片和语言选项。默认情况下，Pytesseract使用英语语言模型进行识别。如果需要识别其他语言，可以将lang参数设置为对应的语言代码。

3、整理识别的文本

在将识别的文本整理成word、txt和markdown格式的文件之前，需要先对识别的文本进行处理和清洗，以确保输出的文件格式正确。以下是一些常用的文本处理和清洗操作：

去除多余的空格和换行符
将文本按照段落进行分割
将文本按照句子进行分割
删除无用的字符和标点符号
将文本转换为小写字母（可选）
...

下面是一个示例代码，将识别的文本整理成txt格式的文件：

import pytesseractfrom PIL import Image# 打开图片img = Image.open('example.png')# 识别图片中的文本text = pytesseract.image_to_string(img, lang='eng')# 去除多余的空格和换行符text = ' '.join(text.split())text = text.replace('/n', ' ')# 将文本按照段落进行分割paragraphs = text.split('/n/n')# 创建txt文件并写入文本with open('example.txt', 'w') as f:    for p in paragraphs:        f.write(p + '/n/n')

将识别的文本整理成word、markdown格式的文件也类似，只需要将输出格式从txt改为对应的格式，然后使用相应的库或工具来生成文件即可。

4、完整代码

下面是一个完整的示例代码，将识别的文本整理成word、txt格式的文件：

import pytesseractfrom PIL import Imageimport docximport os# 打开图片img = Image.open('example.png')# 识别图片中的文本text = pytesseract.image_to_string(img, lang='eng')# 去除多余的空格和换行符text = ' '.join(text.split())text = text.replace('/n', ' ')# 将文本按照段落进行分割paragraphs = text.split('/n/n')# 将文本整理成word格式的文件doc = docx.Document()for p in paragraphs:    doc.add_paragraph(p)doc.save('example.docx')# 将文本整理成txt格式的文件with open('example.txt', 'w') as f:    for p in paragraphs:        f.write(p + '/n/n')# 打开生成的文件os.system('start example.docx')os.system('start example.txt')

在上面的代码中，使用了Python的docx库来生成word格式的文件。在生成文件之后，使用os模块打开文件。在Windows系统中，可以使用os.system()函数来打开文件。在其他操作系统中，可能需要使用其他方式来打开文件。

本文链接：http://www.28at.com/showinfo-26-11845-0.html如何使用Python中的OCR技术将图像中的文本提取为可编辑文件？

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： SpringBoot 并发编程学习历程，你所需要的所有知识点！

下一篇：深度使用了下 Serverless，太丝滑了！

标签：

热门焦点

6月iOS设备好评榜：第一蝉联榜首近一年

作为安兔兔各种榜单里变化最小的那个，2023年6月的iOS好评榜和上个月相比没有任何排名上的变化，仅仅是部分设备好评率的下降，长年累月的用户评价和逐渐退出市场的老款机器让这
让我们一起聊聊文件的操作

文件【1】文件是什么？文件是保存数据的地方，是数据源的一种，比如大家经常使用的word文档、txt文件、excel文件、jpg文件...都是文件。文件最主要的作用就是保存数据，它既可以保
网红炒股不为了赚钱，那就是耍流氓！

来源：首席商业评论6月26日高调宣布入市，网络名嘴大v胡锡进居然进军了股市。在一次财经媒体峰会上，几个财经圈媒体大佬就“胡锡进炒股是否知道认真报道”展开讨论。有
小米MIX Fold 3配置细节曝光：搭载领先版骁龙8 Gen2+罕见5倍长焦

这段时间以来，包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都得到了不少爆料，而小米新一代折叠屏旗舰——小米MIX Fold 3此前也屡屡被传
消息称小米汽车开始筛选交付中心：需至少120个车位

IT之家 7 月 7 日消息，日前，有微博简介为“汽车行业从业者、长三角一体化拥护者”的微博用户 @长三角行健者发文表示，据经销商集团反馈，小米汽车目前
华为HarmonyOS 4.0将于8月4日发布或搭载AI大模型技术

华为宣布HarmonyOS4.0将于8月4日正式发布。此前，华为已经针对开发者公布了HarmonyOS4.0，以便于开发者提前进行适配，也因此被曝光出了一些新系统的特性
OPPO K11评测：旗舰级IMX890加持 2000元档最强影像手机

【Techweb评测】中端机型用户群体巨大，占了中国目前手机市场的大头，一直以来都是各手机品牌的“必争之地”，其中OPPO K系列机型一直以来都以高品质、
onebot M24巧系列一体机采用轻薄机身设计，现已在各平台开售

onebot M24 巧系列一体机目前已在线上线下各平台同步开售。onebot M24 巧系列采用一体化轻薄机身设计，最薄处为 10.15mm，拥有宝石红、午夜蓝、石墨绿、雅致
由于成本持续增加，笔记本产品价格预计将明显上涨

根据知情人士透露，由于材料、物流等成本持续增加，笔记本产品价格预计将在2021年下半年有明显上涨。进入6月下旬以来，全球半导体芯片缺货情况加剧，显卡、处理器

如何使用Python中的OCR技术将图像中的文本提取为可编辑文件？

1、安装和配置Pytesseract库

2、识别图片中的文本

3、整理识别的文本

4、完整代码

6月iOS设备好评榜：第一蝉联榜首近一年

让我们一起聊聊文件的操作

网红炒股不为了赚钱，那就是耍流氓！

小米MIX Fold 3配置细节曝光：搭载领先版骁龙8 Gen2+罕见5倍长焦

消息称小米汽车开始筛选交付中心：需至少120个车位

华为HarmonyOS 4.0将于8月4日发布或搭载AI大模型技术

OPPO K11评测：旗舰级IMX890加持 2000元档最强影像手机

onebot M24巧系列一体机采用轻薄机身设计，现已在各平台开售

由于成本持续增加，笔记本产品价格预计将明显上涨

最新推荐

猜你喜欢

热门推荐

相关资讯