python基础爬虫格式-CFANZ编程社区

python基础爬虫格式

import requests  #导入库
import re   #导入库
from fake_useragent import UserAgent    # 导入随机ua
headers = {
    'User-Agent': UserAgent().random
}
url  = ''  #此处填写需要爬取的网页链接


resp  = requests.get(url=url,headers=headers).text      # resp来获取get请求的数据
print(resp)
zz = ''  #正则表达式编写
xy_zz = re.findall(zz,resp,re.S)  #写的正则表达式去获取的数据中匹配
a = 0
for i in xy_zz:
    resp_1 = requests.get(url=i,headers=headers)  #再次请求获取文件的最终地址

    with open("需要存放的路径" +'（文件后缀）','（写入方式）')as f:  #写入文件操作
        f.write(resp_1.content)
        f.close()

        a = a+1

0 条评论