在日常工作中,偶尔需要对网站的内链进行查询,监控链接的收录情况,是分析seo的策略之一。那么这次用python写了一款查收录工具。主要是利用urllib标准库进行请求,对响应数据分析,从而判断链接的收录情况。
python请求库有requests第三方库,使用是比较方便的,但是我还是用urllib进行请求了,可能我了解到urllib可以通过gzip传输数据,并通过gzip解压获取数据。这样的压缩的方式请求响应还是比较快的。
在代码中,使用gzip,只需要在请求头中加入headers['Accept-Encoding'] = 'gzip'
就可以了。
在获取响应数据的时候,通过gzip解压就可以获取响应数据了。
如果不使用gzip库进行进行解压获取的话,程序就会报如下错误。
“UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1:inva
lid start byte”
但是呢,也可以将headers['Accept-Encoding'] = ' '
,设置为空也是可以的,那么响应的话就可以用read()去获取数据就可以了。
当然了,源码中还需要设置UA、Cookie以及代理IP这些都需要对请求进行常规反反爬。
然后通过程序打包命令,进行打包处理。
最后我们查看一下查询收录的运行效果。
不过查询的准确率当然没有100%了,大概在70%左右,这里工具一直可以使用的,不需要额外支出。目前工具及源码以及上传到商城了,需要付点辛苦费支持一下。http://www.pyseo.club/product/9.html