0
点赞
收藏
分享

微信扫一扫

【云原生|Kubernetes】08-Pod中的Init容器

南陵王梁枫 2023-06-12 阅读 77
python爬虫

前言

目录

前言

环境使用

模块使用

模块介绍

代码实现

发送请求

获取数据

保存数据

总结


环境使用

  • python 3.9
  • pycharm

模块使用

  • requests

模块介绍

模块安装问题:

  • 如果安装python第三方模块:
  • 安装失败原因:

代码实现

我们上一篇介绍了,如何用Python采集情感音频。今天,我们来学习采集教务系统里面的成绩单,把自己的成绩采集下来。大家也可以尝试采集自己学校的教务系统。

发送请求

我们首先确定我们的目标网址,对我们需要获取的数据。

 

我们要把每一行的数据获取下来,我们接下来用到开发者工具。我们看成绩是在什么位置。是不是在网页源代码中。接下来,我们发送请求,获取网页源代码。

每个学校教务系统不一样,但是,原理都是一样的,我们通过抓包分析,看到,我们学校把成绩放到了一个数据包里面,一个学期一个数据包。

 http://jwxt.aqnu.edu.cn/student/for-std/grade/sheet/info/73127?semester={Semester}'

那么,接下来就简单了,我们只需要请求数据,当然,我们肯定要加上cookies,毕竟里面包含了我们的登录信息。

我们看看前面代码是怎么写的。

semesters = ["44", "45", "46", "66", "126", ]
for Semester in semesters:
    url = f'http://jwxt.aqnu.edu.cn/student/for-std/grade/sheet/info/73127?semester={Semester}'

    headers = {
        'Cookie': 'cookies',       
    }
    res = requests.get(url, headers=headers)
    print(url, res)

我们这里直接多页遍历,我们学校只做了cookies检查,对请求头没有要求。因为cookies涉及到了登录信息,我这里就没有展示了,大家在采集自己学校教务系统的时候,就可以用自己的cookies。

获取数据

id2semesters = res.json()['id2semesters']
semester = id2semesters[f'{Semester}']['nameZh']
semesterId2studentGrades = res.json()['semesterId2studentGrades'][f'{Semester}']

这段代码首先从 JSON 响应中获取了学期和学生的绩点信息,并将其存储在变量 semester 和 semesterId2studentGrades 中。

for semesterId2studentGrade in semesterId2studentGrades:
    course = semesterId2studentGrade['course']  # 课程

    course_nameZh = course['nameZh']  # 课程名称
    credits = course['credits']  # 课程学分
    try:
        courseProperty = semesterId2studentGrade['courseProperty']
        courseProperty_name = courseProperty['name']
    except TypeError:
        courseProperty_name = "NOLL"

    gp = semesterId2studentGrade['gp']  # 绩点

    gaGrade = semesterId2studentGrade['gaGrade']  # 成绩
    gradeDetails = semesterId2studentGrade['gradeDetail']  # 明细原文
    gradeDetail = re.findall('data-typeid=.*?>(.*?)</span>', gradeDetails)

然后,使用 for 循环遍历 semesterId2studentGrades 中的每个元素,并使用 course 属性获取该学期的课程信息。

这里就是json取值,没有什么难度,只要写好这些,就可以获取到我们想的内容,我们看看效果。

保存数据

保存数据就简单了,我们已经练习了很多次。


f = open('个人成绩单.csv', mode='a', encoding='utf-8_sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['学期','课程名称', '课程学分', '课程类型', '成绩', '学分绩点',
                                           '成绩明细'])

我们使用 csv_writer.writerow() 方法写入数据。在这个例子中,我们写入了一个包含学期、课程名称、课程学分、课程类型、成绩、学分绩点和成绩明细的列表。

接下来就是写入字典,保存下来。

dit = {
    '学期': semester,
    '课程名称': course_nameZh,
    '课程学分': credits,
    '课程类型': courseProperty_name,
    '成绩': gaGrade,
    '学分绩点': gp,
    '成绩明细': gradeDetail,
}

csv_writer.writerow(dit)

这段代码使用 csv_writer.writerow() 方法将 dit 字典写入 CSV 文件中。fieldnames 参数指定了要写入的列名。在这个例子中,我们指定了 ['学期','课程名称', '课程学分', '课程类型', '成绩', '学分绩点', '成绩明细']

总结

总之,采集教务系统成绩单是一个非常有意义的项目实战,它不仅可以采集成绩单,还可以提升我们采集数据的能力。在实现过程中,我们需要注意数据的准确性和完整性,并采取必要的措施来保证项目的安全性和可靠性。

6adf31c8c5dd4e6a83314f4805b30bc1.jpg

举报

相关推荐

0 条评论