python爬取span里面的文字-CFANZ编程社区

Python爬取标签里面的文字

简介

在网络爬虫开发中，经常需要从网页中提取特定的内容。本文将教会你如何使用Python来爬取HTML中标签内的文字。我们将按照以下步骤来完成：

发送HTTP请求，获取HTML页面源代码
解析HTML，提取标签内的文字内容

步骤

下面是完成整个过程的步骤概览：

步骤	描述
1	发送HTTP请求，获取HTML页面源代码
2	解析HTML页面
3	提取<span>标签内的文字内容

现在，让我们一步步来完成上述步骤。

1. 发送HTTP请求，获取HTML页面源代码

首先，我们需要使用Python中的requests库来发送HTTP请求，并获取目标网页的HTML页面源代码。

import requests

url = "目标网页的URL"
response = requests.get(url)
html = response.text

在上面的代码中，我们首先导入了requests库，并定义了目标网页的URL。然后，我们使用requests.get()方法发送GET请求，并将返回的响应对象赋值给response变量。最后，我们通过response.text属性获取HTML页面源代码，并将其赋值给html变量。

2. 解析HTML页面

接下来，我们需要使用Python中的BeautifulSoup库来解析HTML页面，使得我们可以方便地提取其中的内容。

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, "html.parser")

在上面的代码中，我们首先导入了BeautifulSoup库，并使用BeautifulSoup类将HTML页面源代码进行解析。我们通过传入html.parser作为第二个参数，告诉BeautifulSoup使用Python内置的HTML解析器。

3. 提取标签内的文字内容

最后，我们使用BeautifulSoup提供的方法，来提取目标标签内的文字内容。

span_tags = soup.find_all("span")

for span_tag in span_tags:
    text = span_tag.text
    print(text)

在上面的代码中，我们使用find_all()方法来查找HTML页面中的所有标签。find_all()方法返回一个列表，其中包含了所有匹配的标签。然后，我们使用一个循环遍历这个列表，并使用text属性来获取标签内的文字内容。

你可以根据实际需要，将提取出来的文字内容进行存储、处理或展示。

类图

下面是本文所示代码的类图：

classDiagram
    class requests
    class BeautifulSoup

    requests --|> BeautifulSoup

序列图

下面是本文所示代码的序列图：

sequenceDiagram
    participant 开发者
    participant requests
    participant BeautifulSoup

    开发者 ->> requests: 发送HTTP请求
    requests ->> 开发者: 返回响应对象
    开发者 ->> BeautifulSoup: 解析HTML页面
    BeautifulSoup -->> 开发者: 返回解析后的对象
    开发者 ->> 开发者: 提取<span>标签内的文字内容