0
点赞
收藏
分享

微信扫一扫

多线程查询seo文章收录情况,真好

我们在做网站SEO的时候,肯定会更新网站的内容,在日常更新中,作为seoer,比较关注的所发布的文章是否被百度收录,一方面是判断最近文章的更新质量,另一方面是判断网站关键词优化的效果怎么样。少量url可以自己手动查询,但是想要查询过往所有发布的文章url,难免手动查询比较耗时,这次淡墨流年pyseo,用python去批量查询网站的url。

核心思路:多线程、pyquery解析判断,requests请求

一、requests请求文章url

def scrape_html(url):
logger.info(f'开始查询{url}是否收录。。。。。。。。。')
try:
headers = Headers(headers=True).generate()
response = requests.get(url=url,headers=headers)
if response.status_code == requests.codes.ok:
html = response.content.decode('utf-8')
return html
except Exception as e:
logger.error(f'查询url出错,错误是{e}')

二、pyquery解析判断(xxx是你的网站地址或品牌名称)

def is_shoulu(html,url):
doc = pq(html)
item = {}
if doc('a:contains(xxx)'):
logger.info(f'该url:{url}已收录')
item.setdefault('url',url)
item.setdefault('is_shoulu','收录')
else:
logger.info(f'该url:{url}未收录')
item.setdefault('url', url)
item.setdefault('is_shoulu', '未收录')
return item

三、mongodb数据保存


多线程查询seo文章收录情况,真好_html

四、将网站的url保存到txt中


多线程查询seo文章收录情况,真好_百度_02

五、多线程运行


多线程查询seo文章收录情况,真好_百度_03


六、运行效果


多线程查询seo文章收录情况,真好_多线程_04


七、txt可视化界面


多线程查询seo文章收录情况,真好_多线程_05


八、手动检查收录准确性

多线程查询seo文章收录情况,真好_html_06

可以看到url确实已经是收录了,准确性还是不错的。如果有同学需要关注VX:淡墨流年pyseo,私信程序

多线程查询seo文章收录情况,真好_多线程_07





举报

相关推荐

0 条评论