同学您好!
首先我们明确你来到这里是为了什么,是为了解决问题的。不是为了你们在微信上请教我们的,师兄也是有事的!
一,无论无论什么,你开始什么都不知道,打开我们放在框架里的框架文件,按着一步一步来,不要觉得自己数据库什么的先跳过,一步一步来!
如果出现在爬虫部分导入其他文件下标为红的情况,请注意:
1,是不是以根目录形式打开文件,不知道根目录是什么的自行百度
2,是否安装了相应的库,环境是否配好了。
3,下框架是否下全了,是不是下错了。
二,'no active project'
是否在crawl.spider下编写的爬虫,建议直接用demo-spider为模版编写
三,ERROR [XXXX-XX-XX XX:XX:XX] : 爬虫初始化失败 ==> (1049, "Unknown database 'dg_db_website'")
数据库问题
四,ERROR: ItemSpiderMiddleware error ==> 'AckItem does not support field: request_url'
是不是把parse()方法去掉了。。
五,ERROR: spider error ==>'NoneType' object has no attribute 'get'==>url:<http:XXXXXXX>
在你的代码的某个部分出现了select或者find方法为空的情况,而你又刚好在后面使用了get语句
六,传入下个方法,爬入item里但是网址没传过去
去掉这个allowed_domains = ['XXX']
七,时间截止问题
1,时间格式为XXXX-XX-XX XX:XX:XX eg:2020-11-13 00:00:00 且转成标准时间戳再和self.time对比,不会去学师兄的源码
2,遇到外文网站时设定对应文字时间字典,方便转换时间戳
3,比较时间戳大小问题:后传入的时间时间戳大,以前的时间传入时间戳得到的值小,因为时间戳是你传入的时间与19几几年第一台电脑诞生的时间差。