0
点赞
收藏
分享

微信扫一扫

多线程--豆瓣250高分电影榜--不怕没电影看了

今天用多线程爬取豆瓣250电影榜单的全部电影信息

全是精品

这下不怕没电影看了

公众号回复 豆瓣电影 获取源代码


先看效果

多线程--豆瓣250高分电影榜--不怕没电影看了_for循环


目标网站:

https://movie.douban.com/top250?start=0&filter=


这个网站的数据就在页面源代码

多线程--豆瓣250高分电影榜--不怕没电影看了_for循环_02

所以直接请求这个url就可以了

发送请求,要带上user-agent信息

多线程--豆瓣250高分电影榜--不怕没电影看了_for循环_03


拿到源码之后,我们用xpath来解析提取信息

多线程--豆瓣250高分电影榜--不怕没电影看了_数据_04

发现所有的电影信息都在ol下的li标签

多线程--豆瓣250高分电影榜--不怕没电影看了_数据_05

所以先把所有的 li 标签获取下来

多线程--豆瓣250高分电影榜--不怕没电影看了_数据_04


然后用for循环

xpath二次提取

从每一个li标签里获取该电影信息

(电影名,演员,日期,国家,类型等等)

由于有的信息有点乱,所以用了替换分割

多线程--豆瓣250高分电影榜--不怕没电影看了_数据_07

然后写入csv文件进行保存

多线程--豆瓣250高分电影榜--不怕没电影看了_for循环_08


一页的数据就保存完成了

接下来用多线程来完成多页所有的数据


创建10个线程,用for循环来控制页数

然后分配任务

多线程--豆瓣250高分电影榜--不怕没电影看了_公众号_09


最后看效果


多线程--豆瓣250高分电影榜--不怕没电影看了_for循环

公众号回复 豆瓣电影 获取源代码


代码仅供学习参考


感谢观看


举报

相关推荐

0 条评论