多线程--豆瓣250高分电影榜--不怕没电影看了-CFANZ编程社区

多线程--豆瓣250高分电影榜--不怕没电影看了

今天用多线程爬取豆瓣250电影榜单的全部电影信息

全是精品

这下不怕没电影看了

公众号回复 豆瓣电影 获取源代码

先看效果

多线程--豆瓣250高分电影榜--不怕没电影看了_for循环

目标网站：

https://movie.douban.com/top250?start=0&filter=

这个网站的数据就在页面源代码中

多线程--豆瓣250高分电影榜--不怕没电影看了_for循环_02

所以直接请求这个url就可以了

发送请求，要带上user-agent信息

多线程--豆瓣250高分电影榜--不怕没电影看了_for循环_03

拿到源码之后，我们用xpath来解析提取信息

多线程--豆瓣250高分电影榜--不怕没电影看了_数据_04

发现所有的电影信息都在ol下的li标签里

多线程--豆瓣250高分电影榜--不怕没电影看了_数据_05

所以先把所有的 li 标签获取下来

多线程--豆瓣250高分电影榜--不怕没电影看了_数据_04

然后用for循环

xpath二次提取

从每一个li标签里获取该电影信息

（电影名，演员，日期，国家，类型等等）

由于有的信息有点乱，所以用了替换分割

多线程--豆瓣250高分电影榜--不怕没电影看了_数据_07

然后写入csv文件进行保存

多线程--豆瓣250高分电影榜--不怕没电影看了_for循环_08

一页的数据就保存完成了

接下来用多线程来完成多页所有的数据

创建10个线程，用for循环来控制页数

然后分配任务

多线程--豆瓣250高分电影榜--不怕没电影看了_公众号_09

最后看效果

多线程--豆瓣250高分电影榜--不怕没电影看了_for循环

公众号回复 豆瓣电影 获取源代码

代码仅供学习参考

感谢观看

0 条评论