0
点赞
收藏
分享

微信扫一扫

IDEA搜索替换,利用正则快速实现爬虫请求头


📣文章目录

  • ​​介绍​​
  • ​​请求工具​​
  • ​​开始表演​​
  • ​​利用正则进行替换​​
  • ​​匹配规则​​
  • ​​替换规则​​

介绍

     爬取数据的时候一般我们就要模拟浏览器的请求去访问网站获取数据,我们单独使用Cookie可能会被网站拦截,从而获取不到想要的数据,那么我们在Cookie有效的情况下模拟浏览器标识,让服务器觉得我们是在浏览器进行访问,从而获取数据的目的!

请求工具

本次使用的请求工具为​​Hutool​​包的HttpUtil工具,发送Post或Get等常用请求

在项目的pom.xml的dependencies中加入以下内容:

<dependency>
<groupId>cn.hutool</groupId>
<artifactId>hutool-all</artifactId>
<version>5.8.3</version>
</dependency>

开始表演

接着我们只做演示,不做其他危害他人网站的事情,把人网站爬蹦了可能你就要在某些地方踩缝纫机哦

IDEA搜索替换,利用正则快速实现爬虫请求头_快捷键


我直接把请求头信息搞到工程中,做演示

IDEA搜索替换,利用正则快速实现爬虫请求头_数据_02

该请求是Get请求,我们通过​​HttpUtil.createGet​​方法创建Get请求

代码如下:

IDEA搜索替换,利用正则快速实现爬虫请求头_java_03


我们需要前面复制的请求头信息添加到​​headers​​中去是不是一个一个字体进去?像这样一行一行的粘贴进去呢,几个还好,请求头信息如果有20多个呢是不是要搞半天呀

IDEA搜索替换,利用正则快速实现爬虫请求头_快捷键_04

利用正则进行替换

使用Idea正则进行替换那就很快了,由于可能存在IDEA快捷键会有所不同我使用的是Eclipse的快捷键

IDEA搜索替换,利用正则快速实现爬虫请求头_java_05


你们通过编辑找到替换也可以,如果是和我快捷键一样那就Ctrl+F就可以打开替换

IDEA搜索替换,利用正则快速实现爬虫请求头_数据_06


打开后点击.*按钮打开正则

IDEA搜索替换,利用正则快速实现爬虫请求头_java_07

打开后我们就可以通过正则匹配我们要的数据我们要通过​​:​​来区分key和value

匹配规则

通过以下命令匹配

(.*?): (.*)

IDEA搜索替换,利用正则快速实现爬虫请求头_爬虫_08

替换规则

替换的命令

("$1","$2");

​$1​​​表示查找​​:​​​左边括号内的数据,​​$2​​则是左边括号内的数据,当然你们也可以通过自己需要的情况进行替换命令的修改

IDEA搜索替换,利用正则快速实现爬虫请求头_java_09


点击全部替换后的效果

IDEA搜索替换,利用正则快速实现爬虫请求头_快捷键_10


接着我们用快捷键按住ALT键,然后移动鼠标控制光标选中的行是要修改的数据,光标就会变成多个,这样我们就可以一起做修改

IDEA搜索替换,利用正则快速实现爬虫请求头_快捷键_11


效果如下是不是就很方便了

IDEA搜索替换,利用正则快速实现爬虫请求头_java_12


发送请求可以看出已经获取到网站的对应数据了

IDEA搜索替换,利用正则快速实现爬虫请求头_java_13

IDEA搜索替换,利用正则快速实现爬虫请求头_数据_14


举报

相关推荐

0 条评论