爬虫从入门到入预（8）-CFANZ编程社区

今天的强度不算很大，其实都是之前做过的事情，主要是还是用BS4里面的Beautifulsoup来爬取网页图片。因为老师用的是优美图库，但是我们现在已经使用不了了，所以在百度上随便找了一个桌面壁纸的网站，嘻嘻嘻下一点我喜欢的DOTA2壁纸。

#1.拿到主页面的源代码，然后提取到子页面的链接href
#2.通过href拿到子页面的内容，然后找到下载链接，进行下载 “img里面src的值就是下载地址”
#3.下载图片

这里的url1是因为子页面的url需要拼接主页url。但是我们使用的搜索出来的url和主页url不一致，所以这里把主页url携程url1.

import requests
from bs4 import BeautifulSoup
headers={
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"
}
url1="https://pic.netbian.com"

还是老套路，用for循环获取搜索dota的子页面的每一页的信息。总共有3页，0,1,2

for c in range(0,2):
    url="https://pic.netbian.com/e/search/result/index.php?page="+"c"+"&searchid=2700"
    resp=requests.get(url,headers=headers)
    resp.close()
    #print(resp.text)

日常代码解析，变成bs4类型

#把源代码交给beautifulsoup
    main_page=BeautifulSoup(resp.text,"html.parser")
    a_list=main_page.find("ul",class_="clearfix").find_all("a")
    #print(a_list)

其实这里我多写了一步，在搜索结果的子页面里面就已经包含了下载地址的url，但是为了多训练一下自己对bs4的理解，我还是进入了单一图片后再获取次级子页面的下载url 。

    for a in a_list:
        #print(url1+a.get("href"))#直接通过get可以获得属性的值
        #拿到子页面的源代码
        child_page_resp=requests.get(url1+a.get("href"),headers=headers)
        child_page_resp.close()
        #丛子页面中拿到图片的下载地址
        child_page=BeautifulSoup(child_page_resp.text,"html.parser")
        child_page_img_label=child_page.find("div",class_="photo-pic").find("img")
        downloadurl=child_page_img_label.get("src")
        #print(url1+downloadurl)

最后是下载图片，因为获取的图片内容是字节，所以我们写入文件的时候mode选择wb。然后用url最后一个“/”后面的内容作为图片的名字。

 #下载图片
        img_resp=requests.get(url1+downloadurl)
        img_resp.content#这里拿到的是字节
        img_name=downloadurl.split("/")[-1]#拿到url中最后一个/后面的内容作为图片名称
        with open(img_name,mode="wb") as f:
            f.write(img_resp.content)  #图片内容写入文件
        print("over!",img_name)

最后我们所有的代码如下图所示：

#1.拿到主页面的源代码，然后提取到子页面的链接href
#2.通过href拿到子页面的内容，然后找到下载链接，进行下载 “img里面src的值就是下载地址”
#3.下载图片
import requests
from bs4 import BeautifulSoup
headers={
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"
}
url1="https://pic.netbian.com"
for c in range(0,2):
    url="https://pic.netbian.com/e/search/result/index.php?page="+"c"+"&searchid=2700"
    resp=requests.get(url,headers=headers)
    resp.close()
    #print(resp.text)

    #把源代码交给beautifulsoup
    main_page=BeautifulSoup(resp.text,"html.parser")
    a_list=main_page.find("ul",class_="clearfix").find_all("a")
    #print(a_list)

    for a in a_list:
        #print(url1+a.get("href"))#直接通过get可以获得属性的值
        #拿到子页面的源代码
        child_page_resp=requests.get(url1+a.get("href"),headers=headers)
        child_page_resp.close()
        #丛子页面中拿到图片的下载地址
        child_page=BeautifulSoup(child_page_resp.text,"html.parser")
        child_page_img_label=child_page.find("div",class_="photo-pic").find("img")
        downloadurl=child_page_img_label.get("src")
        #print(url1+downloadurl)

        #下载图片
        img_resp=requests.get(url1+downloadurl)
        img_resp.content#这里拿到的是字节
        img_name=downloadurl.split("/")[-1]#拿到url中最后一个/后面的内容作为图片名称
        with open(img_name,mode="wb") as f:
            f.write(img_resp.content)  #图片内容写入文件
        print("over!",img_name)

print("all over!")

这里面存在一些问题，因为我使用的是for循环去获取搜索结果页面0,1,2的图片，但是for循环好像不起作用了，整个程序跑完得到的只有第一页的图片，后面两页的都没有。我以为是我的程序写错了，然后我取消了for循环，手动分别下载了0,1,2页面的图片，在仅注释（for c in range(0,2):）这句话的基础上下载，结果完全正确，这就让我非常不解，因为有点累了，所以不想动脑经了，反正也没有人看这篇帖子，等未来有个有缘人帮我解答吧！

题外话，哈哈哈博主本人可以说是一个刀斯林了，完了好多年，可惜还是很菜。这里夹带点私活，放几张今天爬出来的我觉得很好的dota2的壁纸，希望这游戏不要死了吧。