1.spider 爬虫文件,制定抓取规则主要是利用xpath
2.items.py 主要指定抓取的内容
3.pipeline.py 有一个指向和存储数据的功能,这里我们还会增加一个store.py的文件,文件内部就是创建一个MongoDB的数据库。
4.setting.py 配置文件,,主要是配置代理、User_Agent、抓取时间间隔、延时等等
微信扫一扫
1.spider 爬虫文件,制定抓取规则主要是利用xpath
2.items.py 主要指定抓取的内容
3.pipeline.py 有一个指向和存储数据的功能,这里我们还会增加一个store.py的文件,文件内部就是创建一个MongoDB的数据库。
4.setting.py 配置文件,,主要是配置代理、User_Agent、抓取时间间隔、延时等等
相关推荐