当前位置：首页 > 科技 > 软件

文本抓取利器，Python和Beautiful Soup爬虫助你事半功倍

来源：责编：时间：2023-12-09 15:21:57 408观看

导读一、简介网络爬虫是一项非常抢手的技能。收集、分析和清洗数据是数据科学项目中最重要的部分。今天介绍如何从链接中爬取高质量文本内容，我们使用迭代，从大约700个链接中进行网络爬取。如果想直接跳转到代码部分，可以在

一、简介

网络爬虫是一项非常抢手的技能。收集、分析和清洗数据是数据科学项目中最重要的部分。

今天介绍如何从链接中爬取高质量文本内容，我们使用迭代，从大约700个链接中进行网络爬取。

如果想直接跳转到代码部分，可以在下方链接GitHub仓库中找到，同时还会找到一个包含将爬取的700个链接的.csv数据集！

【GitHub】：https://github.com/StefanSilver3/MediumArticlesCode-byStefanSilver/tree/main/WebScraping

二、从单个链接进行网页抓取

首先，导入所需的库。

from bs4 import BeautifulSoupimport requestsfrom bs4.element import Commentimport urllib.request

如果还没有安装BeautifulSoup库，可以直接在Python代码中这样做。

pip install beautifulsoup4

然后，开始编码。这里定义两个函数，一个用于检查要排除的内容，另一个用于从网站上爬取内容。

第一个函数用于查找要排除的元素，代码如下。

# 要从提取的文本中过滤的标签def tag_visible(element):    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:        return False    if isinstance(element, Comment):        return False    return True

第二个函数将使用这个函数，以确保所有的无用内容都从最终结果中排除，代码如下。

# 从网页文本中过滤前一个函数中提到的所有标签的函数def text_from_html(body):    soup = BeautifulSoup(body, 'html.parser')    texts = soup.findAll(string=True)    visible_texts = filter(tag_visible, texts)      return u" ".join(t.strip() for t in visible_texts)

接着，可以在一个新链接上测试这两个函数。你可以放置任意链接，不需要使用下面的链接。

html = urllib.request.urlopen('https://www.artificialintelligence-news.com/2023/11/20/microsoft-recruits-former-openai-ceo-sam-altman-co-founder-greg-brockman/').read()print(text_from_html(html))

网络爬取的内容将会像下面的文本一样。

图片

截图1：爬取的网站——随机链接

注意，一些网站会检测到网络爬取活动，并阻止网络爬取尝试。如果发生这种情况，将收到一个403错误，这是“禁止”的代码。

三、同时爬取多个链接

测试了简单的提取函数，接下来对提供的链接数据集的所有链接进行迭代提取。

首先，确保获取了在GitHub仓库中找到的数据集。然后，读取数据集并将列名更改为Link，原本的列名是max(page)。

df = pd.read_csv("furniture_stores_pages.csv")df.rename(columns={"max(page)":"Link"}, inplace=1)

现在，创建一个以0为起始值的变量x，它将在列表中的每个链接上进行迭代。当然元素变量也可以使用。

x=0df_cnotallow=[]for element in df.iterrows():    try:        url = df["Link"][x]        scraped_text = urllib.request.urlopen(url).read()        df_contents.append(text_from_html(scraped_text))        x=x+1    except:        print("(",x,")","This website could not be scraped-> ",df["Link"][x])        x=x+1

然后，定义一个名为df_contents的列表，它将包含从每个网页中提取的所有可以爬取的文本。

接下来，遍历每个元素，如果可以访问且包含相关数据，就从中提取信息。这只是对随机链接进行上述测试，但测试的对象是提供的数据集中的所有链接。

代码中还使用了try-except对无法提取的链接进行跳过。

现在，检查新列表(df_contents)的长度，查看提取了多少链接。

len(df_contents)

这个函数返回268，这意味着在700多个网站中只有268个爬取成功。然后，可以使用下面的代码访问并打印第一个被爬取的网站。

df_contents[0]

这将打印第一个文本，示例如下所示（简短版本）：

图片

截图2：从数据集中爬取的网站

如果需要的话，也可以使用下面的代码反复打印。每打印完一个元素后，都需要输入任意字符以继续，这样就可以逐一检查每个提取的网站。

count = 0for element in df_contents:    print(df_contents[count])    print("/n /n---------------------------------------------------------------------------------------- /n /n")        print("Press any key to continue to print df_contents [",count+1,"]")    input()    count= count+1

本文链接：http://www.28at.com/showinfo-26-40655-0.html文本抓取利器，Python和Beautiful Soup爬虫助你事半功倍

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：微软：VS Code已成为Java巨头！

下一篇： Java高并发详解，死锁的成因与解决方法

标签：

热门焦点

对标苹果的灵动岛华为带来实况窗功能

继苹果的灵动岛之后，华为也在今天正式推出了“实况窗”功能。据今天鸿蒙OS 4.0的现场演示显示，华为的实况窗可以更高效的展现出实时通知，比如锁屏上就能看到外卖、打车、银行
石头自清洁扫拖机器人G10S评测：多年黑科技集大成之作懒人终极福音

科技圈经常能看到一个词叫“缝合怪”，用来形容那些把好多功能或者外观结合在一起的产品，通常这样的词是贬义词，但如果真的是产品缝合的好、缝合的实用的话，那它就成了中性词，今
三言两语说透设计模式的艺术-简单工厂模式

一、写在前面工厂模式是最常见的一种创建型设计模式，通常说的工厂模式指的是工厂方法模式，是使用频率最高的工厂模式。简单工厂模式又称为静态工厂方法模式，不属于GoF 23种设计
使用LLM插件从命令行访问Llama 2

最近的一个大新闻是Meta AI推出了新的开源授权的大型语言模型Llama 2。这是一项非常重要的进展：Llama 2可免费用于研究和商业用途。(几小时前，swyy发现它已从LLaMA 2更名为Lla
三星折叠屏手机去年销售近1000万台今年目标定为1500万

7月29日消息，三星率先发力可折叠手机市场，在全球市场已经取得了非常亮眼的成绩，接下来会进一步巩固和扩大这一优势。三星在推出Galaxy Z Flip5和Galax
iQOO Neo8 Pro真机谍照曝光：天玑9200+和V1+旗舰双芯加持

去年10月，iQOO推出了iQOO Neo7系列机型，不仅搭载了天玑9000+，而且是同价位唯一一款天玑9000+直屏旗舰，一经上市便受到了用户的广泛关注。在时隔半年后，
苹果140W USB-C充电器：采用氮化镓技术

据10 月 30 日 9to5 Mac 消息报道，当苹果推出新的 MacBook Pro 2021 时，该公司还推出了新的 140W USB-C 充电器，附赠在 MacBook Pro 16 英寸机型的盒子里，也支
DRAM存储器10月价格下跌，NAND闪存本月价格与上月持平

10月30日，据韩国媒体消息，自今年年初以来一直在上涨的 DRAM 存储器的交易价格仅在本月就下跌了近 10％，此次是全年首次降价，而NAND 闪存本月价格与上月持平。市
最薄的14英寸游戏笔记本电脑 Alienware X14已可以购买

2022年1月份在国际消费电子展(CES2022)上首次亮相的Alienware新品——Alienware X14现在已经可以购买了，这款笔记本电脑被誉为世界上最薄的 14 英寸游戏笔

文本抓取利器，Python和Beautiful Soup爬虫助你事半功倍

一、简介

二、从单个链接进行网页抓取

三、同时爬取多个链接

对标苹果的灵动岛华为带来实况窗功能

石头自清洁扫拖机器人G10S评测：多年黑科技集大成之作懒人终极福音

三言两语说透设计模式的艺术-简单工厂模式

使用LLM插件从命令行访问Llama 2

三星折叠屏手机去年销售近1000万台今年目标定为1500万

iQOO Neo8 Pro真机谍照曝光：天玑9200+和V1+旗舰双芯加持

苹果140W USB-C充电器：采用氮化镓技术

DRAM存储器10月价格下跌，NAND闪存本月价格与上月持平

最薄的14英寸游戏笔记本电脑 Alienware X14已可以购买

最新推荐

猜你喜欢

热门推荐

相关资讯