python 读入html-CFANZ编程社区

Python 读入 HTML

在Web开发中，经常需要对HTML进行处理和分析。Python作为一种强大的编程语言，提供了许多工具和库来读取和解析HTML。本文将介绍如何使用Python读取HTML，并使用示例代码演示它的使用。

什么是HTML？

HTML（超文本标记语言）是一种用于创建网页的标准标记语言。它由一系列标签组成，这些标签用于定义网页的结构和内容。HTML文档由一系列嵌套的HTML元素组成，每个元素都有一个开始标签和结束标签。

HTML示例：

<!DOCTYPE html>
<html>
<head>
    <title>示例页面</title>
</head>
<body>
    标题
    <p>这是一个段落。</p>
    <ul>
        <li>列表项1</li>
        <li>列表项2</li>
        <li>列表项3</li>
    </ul>
</body>
</html>

使用Python读取HTML

Python提供了多种方法来读取和处理HTML。下面是使用两种常用的方法：使用第三方库requests和使用内置模块urllib。

使用 `requests`库

requests是一种流行的Python库，用于发送HTTP请求。它可以用来获取网页内容并将其保存为字符串。

首先，我们需要安装requests库。在命令行中运行以下命令：

pip install requests

导入requests库并使用get方法获取HTML内容：

import requests

# 发送GET请求获取HTML内容
response = requests.get('

# 将内容保存为字符串
html = response.text

在上面的代码中，我们使用requests.get方法发送一个GET请求，将响应保存在response变量中。然后，我们可以使用response.text属性将内容转换为字符串。

使用 `urllib`模块

urllib是Python的内置模块，用于处理URL。它提供了许多有用的方法来发送HTTP请求和处理URL。

通过导入urllib.request模块，我们可以使用urlopen函数获取HTML内容：

import urllib.request

# 获取HTML内容
response = urllib.request.urlopen('

# 将内容保存为字符串
html = response.read().decode('utf-8')

在上面的代码中，我们使用urlopen函数发送一个GET请求，将响应保存在response变量中。然后，我们可以使用response.read().decode('utf-8')方法将内容转换为字符串。

解析HTML

一旦我们获取了HTML内容，我们可以使用Python库来解析和提取所需的信息。常用的HTML解析库有BeautifulSoup和lxml。

使用 `BeautifulSoup`

BeautifulSoup是一个流行的Python库，用于解析HTML和XML文档。它提供了一种简单的方式来从HTML中提取所需的信息。

首先，我们需要安装BeautifulSoup库。在命令行中运行以下命令：

pip install beautifulsoup4

导入BeautifulSoup并解析HTML：

from bs4 import BeautifulSoup

# 解析HTML
soup = BeautifulSoup(html, 'html.parser')

# 提取标题
title = soup.title.text

# 提取段落
paragraphs = soup.find_all('p')
for p in paragraphs:
    print(p.text)

# 提取列表项
list_items = soup.find_all('li')
for li in list_items:
    print(li.text)

在上面的代码中，我们首先从bs4模块导入BeautifulSoup类。然后，我们使用BeautifulSoup类的构造函数将HTML内容解析为soup对象。我们可以使用soup.title.text属性来提取标题的文本内容，使用soup.find_all方法来查找所有的段落和列表项，并使用text属性获取它们的文本内容。