当前位置：首页 > 科技 > 软件

Python爬虫神器：Beautiful Soup指南，轻松解析网页数据！

来源：责编：时间：2023-11-28 09:32:53 389观看

导读Beautiful Soup（简称BS4）是一种强大而灵活的HTML和XML解析库，广泛用于Python爬虫和数据采集中。这篇文章介绍 Beautiful Soup的功能和用法，并提供示例代码，帮助你更好地理解和应用这个优秀的库。一、Beautiful Soup简介1、

Beautiful Soup（简称BS4）是一种强大而灵活的HTML和XML解析库，广泛用于Python爬虫和数据采集中。

这篇文章介绍 Beautiful Soup的功能和用法，并提供示例代码，帮助你更好地理解和应用这个优秀的库。

一、Beautiful Soup简介

1、什么是Beautiful Soup？

Beautiful Soup是一个Python库，用于解析HTML和XML文档，并提供了简单而直观的方式来遍历文档树、搜索特定标签和提取数据。它的名字取自路易斯·卡洛斯·蒙特斯·库比斯（Luis Carlos Monteiro Cabral de Melo）的诗歌《Alice》中的一句话：“Beautiful Soup so rich and green, Waiting in a hot tureen!”，寓意着它用来“捞取”美味的数据。

2、安装Beautiful Soup

使用pip来安装Beautiful Soup库：

pip install beautifulsoup4

同时，为了能够解析HTML和XML文档，还需要安装一个解析器，如lxml或html5lib：

pip install lxml# 或pip install html5lib

3、导入Beautiful Soup

导入Beautiful Soup库：

from bs4 import BeautifulSoup

二、Beautiful Soup的基本用法

1、解析HTML文档

Beautiful Soup可以解析HTML或XML文档，并将其转换成文档树的形式，以便于遍历和操作。

示例代码：

from bs4 import BeautifulSoup# HTML文档示例html_doc = """<html>    <head>        <title>我的第一个网页</title>    </head>    <body>        <h1>欢迎来到我的网页</h1>        <p>这是一个段落。</p>    </body></html>"""# 创建Beautiful Soup对象soup = BeautifulSoup(html_doc, 'html.parser')

在这个示例中，创建了一个Beautiful Soup对象，并使用html.parser解析器解析了HTML文档。

2、遍历文档树

一旦有了Beautiful Soup对象，就可以遍历文档树，查找特定的标签和数据。

以下是一些基本的遍历方法：

（1）查找标签

使用find()方法来查找特定的标签：

# 查找第一个<h1>标签h1_tag = soup.find('h1')# 打印标签文本print(h1_tag.text)

（2）遍历子节点

使用children属性来遍历一个标签的子节点：

# 遍历<body>标签的子节点body_tag = soup.find('body')for child in body_tag.children:    print(child)

（3）遍历所有标签

使用find_all()方法来查找所有特定类型的标签：

# 查找所有<p>标签p_tags = soup.find_all('p')# 遍历所有<p>标签for p_tag in p_tags:    print(p_tag.text)

3、提取数据

找到目标标签，就可以提取其中的数据。

以下是一些提取数据的示例：

（1）获取标签文本

使用.text属性获取标签的文本内容：

# 获取<h1>标签的文本内容h1_text = h1_tag.textprint(h1_text)

（2）获取标签属性

如果标签有属性，可以使用字典的方式获取：

# 获取<head>标签的lang属性值head_tag = soup.find('head')lang_value = head_tag['lang']print(lang_value)

（3）提取链接

如果要提取链接，可以使用.get()方法：

# 获取<a>标签的链接a_tag = soup.find('a')link = a_tag.get('href')print(link)

三、高级用法

1、使用CSS选择器

Beautiful Soup支持使用CSS选择器来查找标签，这使得查找更灵活和方便：

# 使用CSS选择器查找所有<p>标签p_tags = soup.select('p')

2、嵌套查找

在查找方法中嵌套使用，以查找更深层次的标签：

# 查找<body>标签下的所有<p>标签p_tags = soup.find('body').find_all('p')

3、处理不规范的HTML

Beautiful Soup可以处理不规范的HTML文档，自动修复标签嵌套和缺失的情况：

# 处理不规范的HTML文档dirty_html = "<p>这是一个段落</p>"soup = BeautifulSoup(dirty_html, 'html.parser')print(soup.prettify())

四、示例代码

以下是一个完整的示例，演示了如何使用Beautiful Soup解析HTML文档、遍历文档树、查找标签和提取数据：

from bs4 import BeautifulSoup# HTML文档示例html_doc = """<html>    <head>        <title>我的第一个网页</title>    </head>    <body>        <h1>欢迎来到我的网页</h1>        <p>这是一个段落。</p>    </body></html>"""# 创建Beautiful Soup对象soup = BeautifulSoup(html_doc, 'html.parser')# 查找<h1>标签h1_tag = soup.find('h1')# 获取<h1>标签的文本内容h1_text = h1_tag.text# 查找所有<p>标签p_tags = soup.find_all('p')# 提取第一个<p>标签的文本内容p_text = p_tags[0].text# 打印结果print("标题:", h1_text)print("段落:", p_text)

这个示例演示了如何解析HTML文档、查找标签和提取数据，以及如何处理不规范的HTML文档。

总结

Beautiful Soup是一个强大的HTML和XML解析库，为Python爬虫和数据采集提供了强大的工具。

本文链接：http://www.28at.com/showinfo-26-34568-0.htmlPython爬虫神器：Beautiful Soup指南，轻松解析网页数据！

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：彻底解决Spring Cloud Gateway中Body读取问题

下一篇：一篇学会 Rust 内存布局

标签：

热门焦点

K60至尊版狂暴引擎2.0加持：超177万跑分斩获性能第一

Redmi的后性能时代战略发布会今天下午如期举办，在本次发布会上，Redmi公布了多项关于和联发科的深度合作，以及新机K60 Ultra在软件和硬件方面的特性，例如：“K60 至尊版，双芯旗舰
JavaScript学习 -AES加密算法

引言在当今数字化时代，前端应用程序扮演着重要角色，用户的敏感数据经常在前端进行加密和解密操作。然而，这样的操作在网络传输和存储中可能会受到恶意攻击的威胁。为了确保数据
在线图片编辑器，支持PSD解析、AI抠图等

自从我上次分享一个人开发仿造稿定设计的图片编辑器到现在，不知不觉已过去一年时间了，期间我经历了裁员失业、面试找工作碰壁，寒冬下一直没有很好地履行计划.....这些就放在日
10天营收超1亿美元，《星铁》比《原神》差在哪？

来源：伯虎财经作者：陈平安即便你没玩过《原神》，你一定听说过的它的大名。恨它的人把《原神》开服那天称作是中国游戏史上最黑暗的一天，有粉丝因为索尼在PS平台上线《原神》，怒而
猿辅导与新东方的两种“归途”

作者｜卓心月出品｜零态LT（ID：LingTai_LT）如何成为一家伟大企业？答案一定是对“势”的把握，这其中最关键的当属对企业战略的制定，且能够站在未来看现在，即使这其中的
花7万退货退款无门：谁在纵容淘宝珠宝商家造假？

来源：极点商业作者：杨铭在淘宝购买珠宝玉石后，因为保证金不够赔付，店铺关闭，退货退款难、维权无门的比比皆是。“提供相关产品鉴定证书，支持全国复检，可以30天无理由退换货。&
小米MIX Fold 3下月亮相：今年唯一无短板的全能折叠屏

这段时间以来，包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都有新的进展，其中荣耀、三星都已陆续发布了最新的折叠屏旗舰，尤其号荣耀Magi
三星获批量产iPhone 15全系屏幕：苹果史上最惊艳直屏

按照惯例，苹果将继续在今年9月举办一年一度的秋季新品发布会，有传言称发布会将于9月12日举行，届时全新的iPhone 15系列将正式与大家见面，不出意外的话
OPPO K11评测：旗舰级IMX890加持 2000元档最强影像手机

【Techweb评测】中端机型用户群体巨大，占了中国目前手机市场的大头，一直以来都是各手机品牌的“必争之地”，其中OPPO K系列机型一直以来都以高品质、

Python爬虫神器：Beautiful Soup指南，轻松解析网页数据！

一、Beautiful Soup简介

1、什么是Beautiful Soup？

2、安装Beautiful Soup

3、导入Beautiful Soup

二、Beautiful Soup的基本用法

1、解析HTML文档

2、遍历文档树

（1）查找标签

（2）遍历子节点

（3）遍历所有标签

3、提取数据

（1）获取标签文本

（2）获取标签属性

（3）提取链接

三、高级用法

1、使用CSS选择器

2、嵌套查找

3、处理不规范的HTML

四、示例代码

总结

K60至尊版狂暴引擎2.0加持：超177万跑分斩获性能第一

JavaScript学习 -AES加密算法

在线图片编辑器，支持PSD解析、AI抠图等

10天营收超1亿美元，《星铁》比《原神》差在哪？

猿辅导与新东方的两种“归途”

花7万退货退款无门：谁在纵容淘宝珠宝商家造假？

小米MIX Fold 3下月亮相：今年唯一无短板的全能折叠屏

三星获批量产iPhone 15全系屏幕：苹果史上最惊艳直屏

OPPO K11评测：旗舰级IMX890加持 2000元档最强影像手机

最新推荐

猜你喜欢

热门推荐

相关资讯