当前位置:首页 > 科技  > 软件

Python自动化办公实战:PDF文本提取技巧

来源: 责编: 时间:2023-11-21 09:39:17 380观看
导读PDF文件具有跨平台的特点,可以在不同的操作系统和设备上保持一致的显示效果。但是,PDF文件也有一些缺点,比如不易编辑、复制和搜索。如果我们想要从PDF文件中提取文本内容,该怎么办呢?在本教程中,我们将介绍如何使用Python

PDF文件具有跨平台的特点,可以在不同的操作系统和设备上保持一致的显示效果。但是,PDF文件也有一些缺点,比如不易编辑、复制和搜索。如果我们想要从PDF文件中提取文本内容,该怎么办呢?4cV28资讯网——每日最新资讯28at.com

在本教程中,我们将介绍如何使用Python中的PyPDF2库来提取PDF文件中的内嵌文字内容。PyPDF2是一个纯Python的库,可以读取、分割、合并、裁剪和转换PDF文件。它不需要安装任何其他的依赖库,也不需要调用外部的程序或服务。4cV28资讯网——每日最新资讯28at.com

4cV28资讯网——每日最新资讯28at.com

安装PyPDF2库

要使用PyPDF2库,我们首先需要安装它。我们可以使用pip命令来安装,如下所示:4cV28资讯网——每日最新资讯28at.com

pip install PyPDF2

如果安装成功,我们可以在Python中导入PyPDF2模块,如下所示:4cV28资讯网——每日最新资讯28at.com

import PyPDF2

读取PDF文件

要从PDF文件中提取文本内容,我们首先需要读取PDF文件。我们可以使用PyPDF2.PdfReader类来创建一个PDF文件的读取对象,然后传入一个文件对象或一个文件路径作为参数。例如,假设我们有一个名为sample.pdf的PDF文件,我们可以用以下代码来读取它:4cV28资讯网——每日最新资讯28at.com

# 通过文件对象来读取with open("sample.pdf", "rb") as f: # 以二进制模式打开文件    reader = PyPDF2.PdfReader(f) # 创建一个PdfFileReader对象# 通过文件路径来读取reader = PyPDF2.PdfReader("sample.pdf") # 创建一个PdfFileReader对象

注意,我们必须以二进制模式("rb")来打开PDF文件,否则会出现错误。4cV28资讯网——每日最新资讯28at.com

获取PDF文件的基本信息

在读取了PDF文件之后,我们可以使用PdfReader对象的一些属性和方法来获取PDF文件的基本信息,例如页数、作者、标题等。例如:4cV28资讯网——每日最新资讯28at.com

# 获取页数num_pages = len(reader.pages) # 返回一个整数,表示PDF文件的总页数print(f"该PDF文件共有{num_pages}页")# 获取作者author = reader.metadata.author # 返回一个字符串,表示PDF文件的作者信息print(f"该PDF文件的作者是{author}")# 获取标题title = reader.metadata.title # 返回一个字符串,表示PDF文件的标题信息print(f"该PDF文件的标题是{title}")

提取单页文本内容

要从单页中提取文本内容,我们可以使用PdfReader对象的pages来获取指定页码的页面对象(PyPDF2.pdf.PageObject类),然后使用页面对象的extract_text()方法来获取页面中的文本内容。例如:4cV28资讯网——每日最新资讯28at.com

# 获取第一页的页面对象page1 = reader.pages[0]# 传入一个整数作为参数,表示页码(从0开始)# 提取第一页的文本内容text1 = page1.extract_text() # 返回一个字符串,表示页面中的文本内容# 打印第一页的文本内容print(text1)

注意,extract_text()方法只能提取内嵌文字内容,不能提取图像或其他元素。另外,提取出来的文本内容可能不完全符合原始格式,可能存在换行、空格、缺失等问题。4cV28资讯网——每日最新资讯28at.com

提取多页文本内容

要从多页中提取文本内容,我们可以使用一个循环来遍历PdfReader对象的每一页,然后使用extract_text()方法来获取每一页的文本内容,并将它们拼接成一个完整的字符串。例如:4cV28资讯网——每日最新资讯28at.com

# 创建一个空字符串,用于存储所有页面的文本内容text = ""# 遍历每一页for i in range(num_pages):    # 获取当前页的页面对象    page = reader.pages[i]    # 提取当前页的文本内容    page_text = page.extract_text()    # 将当前页的文本内容添加到总字符串中    text += page_text# 打印所有页面的文本内容print(text)

保存提取的文本内容

提取了PDF文件中的文本内容之后,我们可以将它保存到一个文本文件中,以便后续的处理或分析。我们可以使用Python的内置函数open()来创建一个文本文件对象,然后使用write()方法来写入提取的文本内容。例如:4cV28资讯网——每日最新资讯28at.com

# 创建一个名为output.txt的文本文件对象,以写入模式打开with open("output.txt", "w", encoding="utf-8") as f: # 指定编码为utf-8,避免乱码    # 将提取的文本内容写入到文件中    f.write(text)

注意,我们需要指定编码为utf-8,以避免出现乱码。4cV28资讯网——每日最新资讯28at.com

如下是:sample.pdf和output.txt文件的部分截图4cV28资讯网——每日最新资讯28at.com

4cV28资讯网——每日最新资讯28at.com

总结

在本教程中,我们介绍了如何使用Python中的PyPDF2库来提取PDF文件中的内嵌文字内容。我们首先安装了PyPDF2库,并导入了PyPDF2模块。然后,我们使用PyPDF2.PdfReader类来读取PDF文件,并获取了PDF文件的基本信息。接着,我们使用pages和extract_text()方法来提取单页或多页的文本内容,并将它们保存到一个文本文件中。通过这些操作,我们可以实现Python自动化办公的一个功能,即从PDF文件中提取文本内容。4cV28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-32016-0.htmlPython自动化办公实战:PDF文本提取技巧

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 探索 C++20 的新领域:深入理解 static 关键字和核心语言特性测试宏

下一篇: 17个酷爆了的开源Flutter应用程序以及一些Flutter学习资源

标签:
  • 热门焦点
  • 小米官宣:2023年上半年出货量中国第一!

    今日早间,小米电视官方微博带来消息,称2023年小米电视上半年出货量达到了中国第一,同时还表示小米电视的巨屏风暴即将开始。“公布一个好消息2023年#小米电视上半年出货量中国
  • 影音体验是真的强 简单聊聊iQOO Pad

    大公司的好处就是产品线丰富,非常细分化的东西也能给你做出来,例如早先我们看到了新的vivo Pad2,之后我们又在iQOO Neo8 Pro的发布会上看到了iQOO的首款平板产品iQOO Pad。虽
  • 7月安卓手机性价比榜:努比亚+红魔两款新机入榜

    7月登场的新机有努比亚Z50S Pro和红魔8S Pro,除了三星之外目前唯二的两款搭载超频版骁龙8Gen2处理器的产品,而且努比亚和红魔也一贯有着不错的性价比,所以在本次的性价比榜单
  • 太卷!Redmi MAX 100英寸电视便宜了:12999元买Redmi史上最大屏

    8月5日消息,从小米商城了解到,Redmi MAX 100英寸巨屏电视日前迎来官方优惠,到手价12999元,比发布价便宜了7000元,在大屏电视市场开卷。据了解,Redmi MAX 100
  • 学习JavaScript的10个理由...

    作者 | Simplilearn编译 | 王瑞平当你决心学习一门语言的时候,很难选择到底应该学习哪一门,常用的语言有Python、Java、JavaScript、C/CPP、PHP、Swift、C#、Ruby、Objective-
  • 三言两语说透柯里化和反柯里化

    JavaScript中的柯里化(Currying)和反柯里化(Uncurrying)是两种很有用的技术,可以帮助我们写出更加优雅、泛用的函数。本文将首先介绍柯里化和反柯里化的概念、实现原理和应用
  • 深度探索 Elasticsearch 8.X:function_score 参数解读与实战案例分析

    在 Elasticsearch 中,function_score 可以让我们在查询的同时对搜索结果进行自定义评分。function_score 提供了一系列的参数和函数让我们可以根据需求灵活地进行设置。近期
  • 共享单车的故事讲到哪了?

    来源丨海克财经与共享充电宝相差不多,共享单车已很久没有被国内热点新闻关照到了。除了一再涨价和用户直呼用不起了。近日多家媒体再发报道称,成都、天津、郑州等地多个共享单
  • 机构称Q2国内智能手机销量同比下滑4% vivo份额重回第1

    7月29日消息,根据市场调查机构Counterpoint Research公布的最新报告,2023年第2季度中国智能手机销量同比下降4%,创新自2014年以来第2季度销量新低。报
Top