当前位置：首页 > 科技 > 软件

Python爬虫神器：Beautiful Soup指南，轻松解析网页数据！

来源：责编：时间：2023-11-28 09:32:53 385观看

导读Beautiful Soup（简称BS4）是一种强大而灵活的HTML和XML解析库，广泛用于Python爬虫和数据采集中。这篇文章介绍 Beautiful Soup的功能和用法，并提供示例代码，帮助你更好地理解和应用这个优秀的库。一、Beautiful Soup简介1、

Beautiful Soup（简称BS4）是一种强大而灵活的HTML和XML解析库，广泛用于Python爬虫和数据采集中。

这篇文章介绍 Beautiful Soup的功能和用法，并提供示例代码，帮助你更好地理解和应用这个优秀的库。

一、Beautiful Soup简介

1、什么是Beautiful Soup？

Beautiful Soup是一个Python库，用于解析HTML和XML文档，并提供了简单而直观的方式来遍历文档树、搜索特定标签和提取数据。它的名字取自路易斯·卡洛斯·蒙特斯·库比斯（Luis Carlos Monteiro Cabral de Melo）的诗歌《Alice》中的一句话：“Beautiful Soup so rich and green, Waiting in a hot tureen!”，寓意着它用来“捞取”美味的数据。

2、安装Beautiful Soup

使用pip来安装Beautiful Soup库：

pip install beautifulsoup4

同时，为了能够解析HTML和XML文档，还需要安装一个解析器，如lxml或html5lib：

pip install lxml# 或pip install html5lib

3、导入Beautiful Soup

导入Beautiful Soup库：

from bs4 import BeautifulSoup

二、Beautiful Soup的基本用法

1、解析HTML文档

Beautiful Soup可以解析HTML或XML文档，并将其转换成文档树的形式，以便于遍历和操作。

示例代码：

from bs4 import BeautifulSoup# HTML文档示例html_doc = """<html>    <head>        <title>我的第一个网页</title>    </head>    <body>        <h1>欢迎来到我的网页</h1>        <p>这是一个段落。</p>    </body></html>"""# 创建Beautiful Soup对象soup = BeautifulSoup(html_doc, 'html.parser')

在这个示例中，创建了一个Beautiful Soup对象，并使用html.parser解析器解析了HTML文档。

2、遍历文档树

一旦有了Beautiful Soup对象，就可以遍历文档树，查找特定的标签和数据。

以下是一些基本的遍历方法：

（1）查找标签

使用find()方法来查找特定的标签：

# 查找第一个<h1>标签h1_tag = soup.find('h1')# 打印标签文本print(h1_tag.text)

（2）遍历子节点

使用children属性来遍历一个标签的子节点：

# 遍历<body>标签的子节点body_tag = soup.find('body')for child in body_tag.children:    print(child)

（3）遍历所有标签

使用find_all()方法来查找所有特定类型的标签：

# 查找所有<p>标签p_tags = soup.find_all('p')# 遍历所有<p>标签for p_tag in p_tags:    print(p_tag.text)

3、提取数据

找到目标标签，就可以提取其中的数据。

以下是一些提取数据的示例：

（1）获取标签文本

使用.text属性获取标签的文本内容：

# 获取<h1>标签的文本内容h1_text = h1_tag.textprint(h1_text)

（2）获取标签属性

如果标签有属性，可以使用字典的方式获取：

# 获取<head>标签的lang属性值head_tag = soup.find('head')lang_value = head_tag['lang']print(lang_value)

（3）提取链接

如果要提取链接，可以使用.get()方法：

# 获取<a>标签的链接a_tag = soup.find('a')link = a_tag.get('href')print(link)

三、高级用法

1、使用CSS选择器

Beautiful Soup支持使用CSS选择器来查找标签，这使得查找更灵活和方便：

# 使用CSS选择器查找所有<p>标签p_tags = soup.select('p')

2、嵌套查找

在查找方法中嵌套使用，以查找更深层次的标签：

# 查找<body>标签下的所有<p>标签p_tags = soup.find('body').find_all('p')

3、处理不规范的HTML

Beautiful Soup可以处理不规范的HTML文档，自动修复标签嵌套和缺失的情况：

# 处理不规范的HTML文档dirty_html = "<p>这是一个段落</p>"soup = BeautifulSoup(dirty_html, 'html.parser')print(soup.prettify())

四、示例代码

以下是一个完整的示例，演示了如何使用Beautiful Soup解析HTML文档、遍历文档树、查找标签和提取数据：

from bs4 import BeautifulSoup# HTML文档示例html_doc = """<html>    <head>        <title>我的第一个网页</title>    </head>    <body>        <h1>欢迎来到我的网页</h1>        <p>这是一个段落。</p>    </body></html>"""# 创建Beautiful Soup对象soup = BeautifulSoup(html_doc, 'html.parser')# 查找<h1>标签h1_tag = soup.find('h1')# 获取<h1>标签的文本内容h1_text = h1_tag.text# 查找所有<p>标签p_tags = soup.find_all('p')# 提取第一个<p>标签的文本内容p_text = p_tags[0].text# 打印结果print("标题:", h1_text)print("段落:", p_text)

这个示例演示了如何解析HTML文档、查找标签和提取数据，以及如何处理不规范的HTML文档。

总结

Beautiful Soup是一个强大的HTML和XML解析库，为Python爬虫和数据采集提供了强大的工具。

本文链接：http://www.28at.com/showinfo-26-34568-0.htmlPython爬虫神器：Beautiful Soup指南，轻松解析网页数据！

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：彻底解决Spring Cloud Gateway中Body读取问题

下一篇：一篇学会 Rust 内存布局

标签：

热门焦点

跑分安卓第一！Redmi K60至尊版8月发布！卢伟冰：目标年度性能之王

8月5日消息，Redmi K60至尊版将于8月发布，在此前举行的战略发布会上，官方该机将搭载搭载天玑9200+处理器，安兔兔V10跑分超177万分，是目前安卓阵营最高的分数
8月总票房已突破10亿！《封神》第一：口碑已经成了

8月5日消息，据灯塔专业版数据，截至8月5日9时35分，8月总票房（含预售）已突破10亿。其中，《封神》以大比分的优势领先。根据官方消息，目前该片总票房已经超过14.
梁柱接棒两年，腾讯音乐闯出新路子

文丨田静出品丨牛刀财经（niudaocaijing）7月5日，企鹅FM发布官方公告称由于业务调整，将于9月6日正式停止运营，这意味着腾讯音乐长音频业务走向消亡。腾讯在长音频领域还在摸索。为
腾讯盖楼，字节拆墙

来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之“想重温暴刷深渊、30+技能搭配暴搓到爽的游戏体验吗？一起上晶核，即刻暴打！”曾凭借直播腾讯旗下代理格斗游戏《DNF》一
华为开发者大会2023日程公开：开设鸿蒙HarmonyOS 4体验区

IT之家 7 月 31 日消息，华为今日公布了 HDC.Together 开发者大会 2023 的详细日程。整场大会将于 8 月 4 日-6 日之间举行，届时将发布最新一代鸿蒙 H
三星Galaxy Z Fold5今日亮相：厚度缩减但仍略显厚重

据官方此前宣布，三星将于7月26日也就是今天在韩国首尔举办Unpacked活动，届时将带来带来包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
Counterpoint ：OPPO双旗舰战略全面落地高端产品销量增长22%

2023年6月30日，全球行业分析机构Counterpoint Research发布的《中国智能手机高端市场白皮书》显示，中国智能手机品牌正在寻求高质量发展，中国高端智能
Windows 11发布，微软一改往常对老机型开放的态度

距离 Windows 11 发布已经过去一周，在过去一周里，很多数码爱好者围绕其对 Android 应用的支持、对老机型的升级问题展开了激烈讨论。与以往不同的是，在这次大
电博会与软博会实现"线下+云端"的双线融合

在本次“电博会”与“软博会”双展会利好条件的加持下，既可以发挥展会拉动人流、信息流、资金流实现快速交互流动的作用，继而推动区域经济良性发展；又可以聚

Python爬虫神器：Beautiful Soup指南，轻松解析网页数据！

一、Beautiful Soup简介

1、什么是Beautiful Soup？

2、安装Beautiful Soup

3、导入Beautiful Soup

二、Beautiful Soup的基本用法

1、解析HTML文档

2、遍历文档树

（1）查找标签

（2）遍历子节点

（3）遍历所有标签

3、提取数据

（1）获取标签文本

（2）获取标签属性

（3）提取链接

三、高级用法

1、使用CSS选择器

2、嵌套查找

3、处理不规范的HTML

四、示例代码

总结

跑分安卓第一！Redmi K60至尊版8月发布！卢伟冰：目标年度性能之王

8月总票房已突破10亿！《封神》第一：口碑已经成了

梁柱接棒两年，腾讯音乐闯出新路子

腾讯盖楼，字节拆墙

华为开发者大会2023日程公开：开设鸿蒙HarmonyOS 4体验区

三星Galaxy Z Fold5今日亮相：厚度缩减但仍略显厚重

Counterpoint ：OPPO双旗舰战略全面落地高端产品销量增长22%

Windows 11发布，微软一改往常对老机型开放的态度

电博会与软博会实现"线下+云端"的双线融合

最新推荐

猜你喜欢

热门推荐

相关资讯