0
点赞
收藏
分享

微信扫一扫

中国大学MOOC 如何抓包和进行采集


中国大学MOOC 如何抓包和进行采集

目标网站

中国大学MOOC 如何抓包和进行采集_json

网站

https://www.icourse163.org/

中国大学MOOC 如何抓包和进行采集_python_02

由于这次爬取的是json的数据接口爬取,要抓包,还有为了响应数据,要登录自己的账号,用自己的cookie让服务器识别不是其它非法请求

抓包

按f12快捷键打开网络调试控制台,或者在网页点击鼠标右键弹出

中国大学MOOC 如何抓包和进行采集_json_03

后面点击检查 进入网络调试控制台,这个是在谷歌浏览器打开的,其它浏览器不一样,不过原理一样的

中国大学MOOC 如何抓包和进行采集_数据_04

中国大学MOOC 如何抓包和进行采集_python_05

后面跳转到这个页面

中国大学MOOC 如何抓包和进行采集_数据_06

后面在网络那边找自己要的数据包

中国大学MOOC 如何抓包和进行采集_大数据_07

发现是post请求

这个是浏览器发起post请求携带的数据参数

中国大学MOOC 如何抓包和进行采集_json_08

中国大学MOOC 如何抓包和进行采集_数据_09

中国大学MOOC 如何抓包和进行采集_大数据_10

下面进入python写代码模拟Post请求的步骤

中国大学MOOC 如何抓包和进行采集_json_11

post请求一般要携带参数进行一个提交

data={
这个里面是刚刚查看那个里面携带的参数
}
这里携带是参数是

data={
'mocCourseQueryVo': '{"keyword":"大数据","pageIndex":1,"highlight":true,"orderBy":0,"stats":30,"pageSize":20}'}

中国大学MOOC 如何抓包和进行采集_服务器_12

先参数不携带cookie进行一个请求试试 代码如下

# _*_ coding:utf-8 _*_
import json
import requests
url='https://www.icourse163.org/web/j/mocSearchBean.searchCourse.rpc?csrfKey=c650905faf964e9885ec570cecc883e9'
data={
'mocCourseQueryVo': '{"keyword":"大数据","pageIndex":1,"highlight":true,"orderBy":0,"stats":30,"pageSize":20}'}

headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}

resp=requests.post(url=url,headers=headers,data=data)
print(resp.json())

中国大学MOOC 如何抓包和进行采集_数据_13

发现服务器识别为非法跨域请求,不行,还是要我们登录的账号的cookie才能我们想要的数据

并且这里的data构建也和一般的不一样

一般我们构建的时候是这样的

resp=requests.post(url=url,headers=headers,json=json.dumps(data))

要把 data的数据转出 json的数据后面提交给服务器,

中国大学MOOC 如何抓包和进行采集_服务器_14

如果再强行转就和上面一样请求不了

# _*_ coding:utf-8 _*_
import json
import requests
url='https://www.icourse163.org/web/j/mocSearchBean.searchCourse.rpc?csrfKey=c650905faf964e9885ec570cecc883e9'
data={
'mocCourseQueryVo': '{"keyword":"大数据","pageIndex":1,"highlight":true,"orderBy":0,"stats":30,"pageSize":20}'}
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
'cookie': '自己的cookie'
'origin': 'https://www.icourse163.org',
}

resp=requests.post(url=url,headers=headers,json=json.dumps(data))
print(resp)
print(resp.json())

中国大学MOOC 如何抓包和进行采集_python_15

请求服务器是成功的,但是服务器不返回数据,因为你提交的参数格式不对,不是json的格式,识别不了

中国大学MOOC 如何抓包和进行采集_服务器_16

这样也一样

所有这里那个数据直接传就可以了 正确的请求代码如下

# _*_ coding:utf-8 _*_
import json
import requests
url='https://www.icourse163.org/web/j/mocSearchBean.searchCourse.rpc?csrfKey=c650905faf964e9885ec570cecc883e9'
data={
'mocCourseQueryVo': '{"keyword":"大数据","pageIndex":1,"highlight":true,"orderBy":0,"stats":30,"pageSize":20}'}
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
'cookie': '自己的cookie'
'origin': 'https://www.icourse163.org',
}

resp=requests.post(url=url,headers=headers,data=data)
print(resp)
print(resp.json())

中国大学MOOC 如何抓包和进行采集_python_17

json数据在线解析

数据返回成功,后面把这个返回数据去json在线解析 可以解析出json数据出

中国大学MOOC 如何抓包和进行采集_数据_18

中国大学MOOC 如何抓包和进行采集_大数据_19

中国大学MOOC 如何抓包和进行采集_大数据_20

中国大学MOOC 如何抓包和进行采集_json_21

解析结果如上

代码如下“

# _*_ coding:utf-8 _*_
import json
import requests
url='https://www.icourse163.org/web/j/mocSearchBean.searchCourse.rpc?csrfKey=c650905faf964e9885ec570cecc883e9'
data={
'mocCourseQueryVo': '{"keyword":"大数据","pageIndex":1,"highlight":true,"orderBy":0,"stats":30,"pageSize":20}'}
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
'cookie': '自己的cookie',
}
resp=requests.post(url=url,headers=headers,data=data)
print(resp)
print(resp.json())
a=resp.json()['result']['list']
print(a[0]['mocCourseCard'])
data=a[0]['mocCourseCard']
print(data)

根据字典和列表取值,获取里面的想要的数据

中国大学MOOC 如何抓包和进行采集_数据_22

存储的代码就不写了。如果有需要的可以自己写一下


举报

相关推荐

0 条评论