今天用多线程爬取豆瓣250电影榜单的全部电影信息
全是精品
这下不怕没电影看了
公众号回复 豆瓣电影 获取源代码
先看效果
目标网站:
https://movie.douban.com/top250?start=0&filter=
这个网站的数据就在页面源代码中
所以直接请求这个url就可以了
发送请求,要带上user-agent信息
拿到源码之后,我们用xpath来解析提取信息
发现所有的电影信息都在ol下的li标签里
所以先把所有的 li 标签获取下来
然后用for循环
xpath二次提取
从每一个li标签里获取该电影信息
(电影名,演员,日期,国家,类型等等)
由于有的信息有点乱,所以用了替换分割
然后写入csv文件进行保存
一页的数据就保存完成了
接下来用多线程来完成多页所有的数据
创建10个线程,用for循环来控制页数
然后分配任务
最后看效果
公众号回复 豆瓣电影 获取源代码
代码仅供学习参考
感谢观看