0
点赞
收藏
分享

微信扫一扫

如何使用PyQuery库制作一个头条采集程序

zhoulujun 2023-12-29 阅读 16

PyQuery是一个Python库,它提供了类似jQuery的语法来解析HTML文档,使得文档的遍历、查找和操作更加方便。要制作一个头条采集程序,您可以使用PyQuery来解析头条页面并提取所需的信息。以下是一个基本示例:

	 如何使用PyQuery库制作一个头条采集程序_HTTP

首先,确保您已经安装了PyQuery库:

pip install pyquery

然后,下面是一个示例代码,演示如何使用PyQuery从头条页面中提取新闻标题和链接:

from pyquery import PyQuery as pq
import requests
http://www.jshk.com.cn/mb/reg.asp?kefu=xiaoding;//爬虫IP免费获取;

def fetch_top_news():
    url = 'https://www.toutiao.com/'  # 替换为头条首页或特定分类页面的URL

    # 发送HTTP请求并获取页面内容
    response = requests.get(url)
    if response.status_code == 200:
        html = response.text

        # 使用PyQuery解析HTML页面
        doc = pq(html)

        # 提取新闻标题和链接
        news_list = doc('.title-box a')
        for news in news_list.items():
            title = news.text()
            link = news.attr('href')
            print(f"标题: {title}\n链接: {link}\n")

    else:
        print("请求失败")

if __name__ == "__main__":
    fetch_top_news()

这段代码中,我们首先发送了一个HTTP请求来获取头条页面的HTML内容,然后使用PyQuery解析HTML。通过选择合适的CSS选择器(在这里是.title-box a),我们提取了新闻标题和链接,并打印出来。

举报

相关推荐

0 条评论