当前位置：首页 > 科技 > 软件

如何使用Python中的OCR技术将图像中的文本提取为可编辑文件？

来源：责编：时间：2023-09-28 10:07:55 472观看

导读1、安装和配置Pytesseract库Pytesseract是Python的一个OCR库，它是Tesseract OCR引擎的Python封装。在使用Pytesseract之前，需要先安装Tesseract OCR引擎和Pytesseract库。可以使用以下命令在Linux系统中安装Tesseract O

1、安装和配置Pytesseract库

Pytesseract是Python的一个OCR库，它是Tesseract OCR引擎的Python封装。在使用Pytesseract之前，需要先安装Tesseract OCR引擎和Pytesseract库。可以使用以下命令在Linux系统中安装Tesseract OCR和Pytesseract库：

sudo apt-get install tesseract-ocrsudo apt-get install libtesseract-devpip install pytesseract

在Windows系统中，可以从Tesseract OCR的官方网站（https://github.com/UB-Mannheim/tesseract/wiki）下载安装包，然后使用以下命令安装Pytesseract库：

pip install pytesseract

2、识别图片中的文本

使用Pytesseract库识别图片中的文本非常简单。首先，需要导入pytesseract模块和PIL模块（用于打开和处理图片）。然后，可以使用pytesseract.image_to_string()函数来识别图片中的文本。以下是一个简单的示例：

import pytesseractfrom PIL import Image# 打开图片img = Image.open('example.png')# 识别图片中的文本text = pytesseract.image_to_string(img, lang='eng')# 打印识别的文本print(text)

在上面的示例中，pytesseract.image_to_string()函数接受两个参数：要识别的图片和语言选项。默认情况下，Pytesseract使用英语语言模型进行识别。如果需要识别其他语言，可以将lang参数设置为对应的语言代码。

3、整理识别的文本

在将识别的文本整理成word、txt和markdown格式的文件之前，需要先对识别的文本进行处理和清洗，以确保输出的文件格式正确。以下是一些常用的文本处理和清洗操作：

去除多余的空格和换行符
将文本按照段落进行分割
将文本按照句子进行分割
删除无用的字符和标点符号
将文本转换为小写字母（可选）
...

下面是一个示例代码，将识别的文本整理成txt格式的文件：

import pytesseractfrom PIL import Image# 打开图片img = Image.open('example.png')# 识别图片中的文本text = pytesseract.image_to_string(img, lang='eng')# 去除多余的空格和换行符text = ' '.join(text.split())text = text.replace('/n', ' ')# 将文本按照段落进行分割paragraphs = text.split('/n/n')# 创建txt文件并写入文本with open('example.txt', 'w') as f:    for p in paragraphs:        f.write(p + '/n/n')

将识别的文本整理成word、markdown格式的文件也类似，只需要将输出格式从txt改为对应的格式，然后使用相应的库或工具来生成文件即可。

4、完整代码

下面是一个完整的示例代码，将识别的文本整理成word、txt格式的文件：

import pytesseractfrom PIL import Imageimport docximport os# 打开图片img = Image.open('example.png')# 识别图片中的文本text = pytesseract.image_to_string(img, lang='eng')# 去除多余的空格和换行符text = ' '.join(text.split())text = text.replace('/n', ' ')# 将文本按照段落进行分割paragraphs = text.split('/n/n')# 将文本整理成word格式的文件doc = docx.Document()for p in paragraphs:    doc.add_paragraph(p)doc.save('example.docx')# 将文本整理成txt格式的文件with open('example.txt', 'w') as f:    for p in paragraphs:        f.write(p + '/n/n')# 打开生成的文件os.system('start example.docx')os.system('start example.txt')

在上面的代码中，使用了Python的docx库来生成word格式的文件。在生成文件之后，使用os模块打开文件。在Windows系统中，可以使用os.system()函数来打开文件。在其他操作系统中，可能需要使用其他方式来打开文件。

本文链接：http://www.28at.com/showinfo-26-11845-0.html如何使用Python中的OCR技术将图像中的文本提取为可编辑文件？

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： SpringBoot 并发编程学习历程，你所需要的所有知识点！

下一篇：深度使用了下 Serverless，太丝滑了！

标签：

热门焦点

Flowable工作流引擎的科普与实践

一.引言当我们在日常工作和业务中需要进行各种审批流程时，可能会面临一系列技术和业务上的挑战。手动处理这些审批流程可能会导致开发成本的增加以及业务复杂度的上升。在这
最“俊美”淘宝卖家，靠直播和短视频圈粉，上架秒光，年销3000万

来源 | 电商在线文｜易琬玉编辑｜斯问受访店铺：Ringdoll戒之人形图源：微博@御座的黄山、“Ringdoll戒之人形”淘宝店铺有关外貌的评价，黄山已经听累了。生于1985年的他，哪
10天营收超1亿美元，《星铁》比《原神》差在哪？

来源：伯虎财经作者：陈平安即便你没玩过《原神》，你一定听说过的它的大名。恨它的人把《原神》开服那天称作是中国游戏史上最黑暗的一天，有粉丝因为索尼在PS平台上线《原神》，怒而
超闭合精工铰链彻底消灭缝隙三星Galaxy Z Flip5与Galaxy Z Fold5发布

2023年7月26日，三星电子正式发布了Galaxy Z Flip5与Galaxy Z Fold5。三星新一代折叠屏手机采用超闭合精工铰链，让折叠后的缝隙不再可见。同时，配合处
iQOO 11S新品发布会

iQOO将在7月4日19:00举行新品发布会，推出杭州亚运会电竞赛事官方用机iQOO 11S。
2299元起！iQOO Pad开启预售：性能最强天玑平板

5月23日，iQOO如期举行了新品发布会，除了首发安卓最强旗舰处理器的iQOO Neo8系列新机外，还在发布会上推出了旗下首款平板电脑——iQOO Pad，其搭载了天玑
英特尔Xe-HP项目终止，将专注Xe-HPC/HPG系列显卡

据10 月 31 日消息报道，英特尔高级副总裁兼加速计算系统和图形事业部总经理表示，Xe-HP“ Arctic Sound” 系列服务器 GPU 已经应用于 oneAPI devcloud 云服
英特尔Xe HPG游戏显卡：拥有512EU，单风扇版本

据10 月 30 日外媒 TheVerge 消息报道，英特尔 Xe HPG Arc Alchemist 的正面实被曝光，不仅拥有 512 EU 版显卡，还拥有 128EU 的单风扇版本。另外，这款显卡 PCB
电博会上海尔智家模拟500平大平层，还原生活空间沉浸式体验

电博会为了更好地让参展观众真正感受到智能家居的绝妙之处，海尔智家的程传岭先生同样介绍了展会上海尔智家的模拟500平大平层，还原生活空间沉浸式体验。程传

如何使用Python中的OCR技术将图像中的文本提取为可编辑文件？

1、安装和配置Pytesseract库

2、识别图片中的文本

3、整理识别的文本

4、完整代码

Flowable工作流引擎的科普与实践

最“俊美”淘宝卖家，靠直播和短视频圈粉，上架秒光，年销3000万

10天营收超1亿美元，《星铁》比《原神》差在哪？

超闭合精工铰链彻底消灭缝隙三星Galaxy Z Flip5与Galaxy Z Fold5发布

iQOO 11S新品发布会

2299元起！iQOO Pad开启预售：性能最强天玑平板

英特尔Xe-HP项目终止，将专注Xe-HPC/HPG系列显卡

英特尔Xe HPG游戏显卡：拥有512EU，单风扇版本

电博会上海尔智家模拟500平大平层，还原生活空间沉浸式体验

最新推荐

猜你喜欢

热门推荐

相关资讯