Python网络编程：掌握urllib包的妙用-CFANZ编程社区

在Python的世界里，处理网络请求是日常任务之一。不论是爬取网页数据，还是调用网络API，一个好用的HTTP客户端库是必不可少的。Python标准库中的urllib包就是这样一个强大的工具，它提供了一个简单的界面来与网上资源互动。本文将带你深入了解urllib包，包括它的主要模块，以及如何使用它们完成网络请求、处理数据和异常。

urllib包概述

urllib是Python标准库中的HTTP客户端包，包含几个用于处理URLs的模块，主要包括：

urllib.request：用于打开和读取URLs。
urllib.error：包含urllib.request抛出的异常。
urllib.parse：用于解析URLs。
urllib.robotparser：用于解析robots.txt文件。

使用urllib.request发起请求

urllib.request模块提供了最基本的HTTP请求方法。以下是一些基本的使用方式：

基本GET请求

import urllib.request

url = 'http://httpbin.org/get'

# 发起请求并读取响应
with urllib.request.urlopen(url) as response:
   html = response.read()
   print(html)

在上面的例子中，我们对"httpbin.org/get"发起了一个GET请求，并打印了响应内容。urlopen方法可以直接打开和读取URLs。

发送数据和使用POST请求

import urllib.parse
import urllib.request

url = 'http://httpbin.org/post'
values = {'key': 'value', 'abc': 'xyz'}

# 编码请求数据
data = urllib.parse.urlencode(values).encode('utf-8')

# 发起POST请求
req = urllib.request.Request(url, data)
with urllib.request.urlopen(req) as response:
   result = response.read()
   print(result)

当我们需要发送数据（例如，填写表单）时，通常使用POST请求。在上面的代码中，我们首先将数据编码成适合URL的格式，然后创建一个请求对象，并最终发送请求。

处理异常

网络请求有时会失败，因此错误处理是必不可少的。urllib.error模块提供了URLError和HTTPError，用于处理各种异常情况。

from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError

url = 'http://httpbin.org/status/404'

req = Request(url)
try:
    response = urlopen(req)
except HTTPError as e:
    print('The server couldn\'t fulfill the request.')
    print('Error code: ', e.code)
except URLError as e:
    print('We failed to reach a server.')
    print('Reason: ', e.reason)
else:
    # everything is fine
    print('Requested page successfully retrieved')

在这个示例中，我们尝试请求一个返回404状态码的URL。当服务器无法满足请求时，会抛出HTTPError；若无法到达服务器，则会抛出URLError。

解析URL

在网络编程中，有时需要从URL中提取不同部分的信息。urllib.parse模块提供了解析URL的功能。

from urllib.parse import urlparse

parsed_url = urlparse('http://user:pwd@NetLoc:80/path;param?query=arg#frag')
print('scheme  :', parsed_url.scheme)
print('netloc  :', parsed_url.netloc)
print('path    :', parsed_url.path)
print('params  :', parsed_url.params)
print('query   :', parsed_url.query)
print('fragment:', parsed_url.fragment)

在以上代码中，我们使用了urlparse方法来分解URL。这使我们能够访问URL的不同组件，如方案、网络位置、路径、参数、查询和片段。

处理robots.txt

网络爬虫在访问网站时应考虑robots.txt规则。urllib.robotparser模块可以帮助解析这些规则。

from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url('http://www.example.com/robots.txt')
rp.read()
user_agent = 'BadCrawler'
url = 'http://www.example.com/'
print(rp.can_fetch(user_agent, url))  # False if not allowed, True if allowed

通过上述代码，我们创建了一个RobotFileParser对象，读取并解析了网站的robots.txt文件。然后我们可以使用can_fetch方法来检查特定的用户代理是否被允许抓取一个URL。