爬虫第一篇-CFANZ编程社区

十分抱歉，我因为过寒假没有及时更新，不过我会很快补回来的。

好，现在进入正题：

今天我们来爬一个网站的源代码，随便哪个网站，只要你知道网站网址即可。

开干！

一、环境搭建

俗话说：“磨刀不误砍柴工。”，木有一些扩展库，怎能去写爬虫呢？

1、首先，按下“WIN+R”，打开“运行”

2、然后，输入“cmd”

3、点“确定”，打开一个CUI

4、输入以下代码，点“Enter”：

pip install requests

5、等待下载……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

6、再输入以下代码，点“Enter”：

pip install bs4

7、再次等待……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

二、编写代码

1、打开编辑器

2、输入以下代码

import requests

html = requests.get("https://www.bilibili.com").read().encode('utf-8')

print(html)

3、运行

三、讲解

首先第一行:

import requests

导入requests模块，requests，就是联网的模块。

然后第二行，也是程序的中心：

html = requests.get("https://www.bilibili.com").read().encode('utf-8')

访问bilibili，并且读出源代码，转换成utf-8格式后存入html变量。

第三行就输出。

当然网址换成其他也行！

最后，祝大家新年快乐(*^▽^*)！