当前位置：首页 > 科技 > 软件

用Python替代Adobe，零成本从PDF提取数据

来源：责编：时间：2023-11-28 09:34:28 394观看

导读一、简介PDF文件是官方报告、发票和数据表的通用语言，然而从PDF文件中提取表格数据可能是一项挑战。尽管Adobe Acrobat等工具提供了解决方案，但它们并不总是易于获取或可自动化运行，而Python则是编程语言中的瑞士军刀。

一、简介

PDF文件是官方报告、发票和数据表的通用语言，然而从PDF文件中提取表格数据可能是一项挑战。尽管Adobe Acrobat等工具提供了解决方案，但它们并不总是易于获取或可自动化运行，而Python则是编程语言中的瑞士军刀。本文将探讨如何利用Python轻松实现PDF数据提取，而无需使用昂贵的软件。

二、了解挑战

PDF文件是为展示而设计的，而不是为提取数据。它们通常包含复杂的布局，在视觉上很吸引人，但在计算上却无法访问。因此，提取表格等结构化信息非常困难。

三、使用PyMuPDF提取文本

PyMuPDF是一款轻量级的库，擅长读取PDF文件并提取文本。只需几行代码，就可以读取PDF并从任意页面提取文本。本文从奔驰集团2022年第四季度年度报告中提取“股东权益变动综合报表（Consolidated Statement of Changes in Equity）”，代码如下。

import fitz  import pandas as pdimport re# --- PDF处理 ---# 定义PDF文件的路径并打开文档pdf_path = '..../Merc 2022Q4 Rep.pdf'pdf_document = fitz.open(pdf_path)# 选择要阅读的特定页面page = pdf_document[200]# 获取页面的尺寸page_rect = page.rectpage_width, page_height = page_rect.width, page_rect.height# 定义感兴趣区域的矩形（不包括脚注）non_footnote_area_height = page_height * 0.90clip_rect = fitz.Rect(0, 0, page_width, non_footnote_area_height)# 从定义的区域提取文本page_text = page.get_text("text", clip=clip_rect)lines_page = page_text.strip().split('/n')

四、规整数据

提取的文本通常带有不需要的字符或格式。这就是预处理发挥作用的地方。Python的字符串处理功能使用户能够清洗和准备数据以转换为表格格式。

# --- 数据清洗 ---# 定义要搜索的字符串并查找其索引search_string = 'Balance at 1 January 2021 (restated) 'try:    index = lines_page.index(search_string)    data_lines = lines_page[index:]except ValueError:    print(f"The string '{search_string}' is not in the list.")    data_lines = []# 如果不是数字或连字符，则合并连续字符串条目def combine_consecutive_strings(lines):    combined = []    buffer = ''        for line in lines:        if isinstance(line, str) and not re.match(r'^[-/d,.]+$', line.strip()):            buffer += ' ' + line if buffer else line        else:            if buffer:                combined.append(buffer)                buffer = ''            combined.append(line.strip())        if buffer:        combined.append(buffer)        return combinedcleaned_data = combine_consecutive_strings(data_lines)

五、使用Pandas创建表格

一旦数据清洗完成，就可以使用pandas了。这个功能强大的数据分析库可以将一系列数据点转换为DataFrame，即一个二维的、大小可变的、可能是异构的带有标记轴的表格数据结构。

# --- 创建DataFrame ---# 根据列数将清洗后的数据分割成块num_columns = 6data_chunks = [cleaned_data[i:i + num_columns] for i in range(0, len(cleaned_data), num_columns)]# 定义DataFrame的表头headers = [    'Description',    'Share capital',    'Capital reserves',    'Retained earnings (restated)',    'Currency translation (restated)',    'Equity instruments / Debt instruments']# 使用数据块和表头创建DataFramefinancial_df = pd.DataFrame(data_chunks, columns=headers)# Display the head of the DataFrame to verify its structurefinancial_df.head()

如下所示是从PDF文件中提取的表格结果。

图片

六、结语

通过利用Python强大的库，可以自动化繁琐的PDF数据提取任务。这种方法不仅成本低，而且提供了Python开发者所喜爱的灵活性和强大功能。

本文链接：http://www.28at.com/showinfo-26-34615-0.html用Python替代Adobe，零成本从PDF提取数据

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：秒杀系统 Go 并发编程实践！

下一篇：层次分析法--可以帮助你做决策的简单算法

标签：

热门焦点

CSS单标签实现转转logo

转转品牌升级后更新了全新的Logo，今天我们用纯CSS来实现转转的新Logo，为了有一定的挑战性，这里我们只使用一个标签实现，将最大化的使用CSS能力完成Logo的绘制与动画效果。新logo
东方甄选单飞：有些鸟注定是关不住的

作者：彭宽鸿来源：华尔街科技眼&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;东方甄选创始人俞敏洪带队的“7天甘肃行”直播活动已在近日顺利收官。成立后一
8月见！小米MIX Fold 3获得3C认证：支持67W快充

这段时间以来，包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都得到了不少爆料，而小米新一代折叠屏旗舰——小米MIX Fold 3此前也屡屡被传
信通院：小米、华为等11家应用商店基本完成APP签名及验签工作

中国信通院表示，目前，小米、华为、OPPO、vivo、360手机助手、百度手机助手、应用宝、豌豆荚和努比亚等9家应用商店，以及抖音和快手2家新型应用分发平
iQOO 11S新品发布会

iQOO将在7月4日19:00举行新品发布会，推出杭州亚运会电竞赛事官方用机iQOO 11S。
3699元！iQOO Neo8 Pro顶配版今日首销：1TB UFS 4.0同价位唯一

5月23日，iQOO推出了全新的iQOO Neo8系列，包含iQOO Neo8和iQOO Neo8 Pro两个版本，其中标准版搭载高通骁龙8+，而Pro版更是首发搭载了联发科天玑9200+旗舰
iQOO 11S或7月上市：搭载“鸡血版”骁龙8Gen2 史上最强5G Soc

去年底，iQOO推出了“电竞旗舰”iQOO 11系列，作为一款性能强机，iQOO 11不仅全球首发2K 144Hz E6全感屏，搭载了第二代骁龙8平台及144Hz电竞屏，同时在快充
OPPO K11采用全方位护眼屏：三大护眼能力减轻视觉疲劳

日前OPPO官方宣布，全新的OPPO K11将于7月25日正式发布，将主打旗舰影像，和同档位竞品相比，其最大的卖点就是将配备索尼IMX890主摄，堪称是2000档位影像表
机构称Q2全球智能手机出货量同比下滑11% 苹果份额依旧第2

7月20日消息，据外媒报道，研究机构的报告显示，由于需求下滑，今年二季度全球智能手机的出货量，同比下滑了11%，三星、苹果等主要厂商的销量，较去年同期均有下

用Python替代Adobe，零成本从PDF提取数据

一、简介

二、了解挑战

三、使用PyMuPDF提取文本

四、规整数据

五、使用Pandas创建表格

六、结语

CSS单标签实现转转logo

东方甄选单飞：有些鸟注定是关不住的

8月见！小米MIX Fold 3获得3C认证：支持67W快充

信通院：小米、华为等11家应用商店基本完成APP签名及验签工作

iQOO 11S新品发布会

3699元！iQOO Neo8 Pro顶配版今日首销：1TB UFS 4.0同价位唯一

iQOO 11S或7月上市：搭载“鸡血版”骁龙8Gen2 史上最强5G Soc

OPPO K11采用全方位护眼屏：三大护眼能力减轻视觉疲劳

机构称Q2全球智能手机出货量同比下滑11% 苹果份额依旧第2

最新推荐

猜你喜欢

热门推荐

相关资讯