PyQuery是一个Python库,它提供了类似jQuery的语法来解析HTML文档,使得文档的遍历、查找和操作更加方便。要制作一个头条采集程序,您可以使用PyQuery来解析头条页面并提取所需的信息。以下是一个基本示例:
首先,确保您已经安装了PyQuery库:
pip install pyquery
然后,下面是一个示例代码,演示如何使用PyQuery从头条页面中提取新闻标题和链接:
from pyquery import PyQuery as pq
import requests
http://www.jshk.com.cn/mb/reg.asp?kefu=xiaoding;//爬虫IP免费获取;
def fetch_top_news():
url = 'https://www.toutiao.com/' # 替换为头条首页或特定分类页面的URL
# 发送HTTP请求并获取页面内容
response = requests.get(url)
if response.status_code == 200:
html = response.text
# 使用PyQuery解析HTML页面
doc = pq(html)
# 提取新闻标题和链接
news_list = doc('.title-box a')
for news in news_list.items():
title = news.text()
link = news.attr('href')
print(f"标题: {title}\n链接: {link}\n")
else:
print("请求失败")
if __name__ == "__main__":
fetch_top_news()
这段代码中,我们首先发送了一个HTTP请求来获取头条页面的HTML内容,然后使用PyQuery解析HTML。通过选择合适的CSS选择器(在这里是.title-box a
),我们提取了新闻标题和链接,并打印出来。