0
点赞
收藏
分享

微信扫一扫

打包一款百度查收录工具,准确率还行

在日常工作中,偶尔需要对网站的内链进行查询,监控链接的收录情况,是分析seo的策略之一。那么这次用python写了一款查收录工具。主要是利用urllib标准库进行请求,对响应数据分析,从而判断链接的收录情况。


python请求库有requests第三方库,使用是比较方便的,但是我还是用urllib进行请求了,可能我了解到urllib可以通过gzip传输数据,并通过gzip解压获取数据。这样的压缩的方式请求响应还是比较快的。


打包一款百度查收录工具,准确率还行_数据


在代码中,使用gzip,只需要在请求头中加入​​headers['Accept-Encoding'] = 'gzip'​​就可以了。


打包一款百度查收录工具,准确率还行_数据_02


在获取响应数据的时候,通过gzip解压就可以获取响应数据了。


打包一款百度查收录工具,准确率还行_python_03


如果不使用gzip库进行进行解压获取的话,程序就会报如下错误。



“UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1:inva
lid start byte”

但是呢,也可以将​​headers['Accept-Encoding'] = ' '​​,设置为空也是可以的,那么响应的话就可以用read()去获取数据就可以了。


当然了,源码中还需要设置UA、Cookie以及代理IP这些都需要对请求进行常规反反爬。


然后通过程序打包命令,进行打包处理。


打包一款百度查收录工具,准确率还行_获取数据_04


最后我们查看一下查询收录的运行效果。



不过查询的准确率当然没有100%了,大概在70%左右,这里工具一直可以使用的,不需要额外支出。目前工具及源码以及上传到商城了,需要付点辛苦费支持一下。http://www.pyseo.club/product/9.html


举报

相关推荐

0 条评论