0
点赞
收藏
分享

微信扫一扫

python爬虫(一)BeautifulSoup解析网页

小暴龙要抱抱 2022-01-16 阅读 77

102 解析网页中的元素

第一步 使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

lxml:

 第二步 描述要爬取的东西在哪     

image = soup.select('???')

第三步 从标签中获取信息,并整理格式放进容器中

<p>something</p>⬇️
{title = something 
 rate  = 40       }

 103解析真实网页

用Requests+BeautifulSoup爬取Tripadvisor

第一步:服务器与本地交换的机制

Request:get & post

Response:status_code+网页内容

第二步:解析真实网页的方法

url = ''
web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')

 headers

headers = {
    'User-Agent': ,
    'Cookie': 
}
url = ''
web_Data = requests.get(url,headers=headers)

用函数规范

 连续爬取多页

urls= ['xxxxxx{}xxxxx'.format(str(i)) for i in range(30,930,30)]
def get_favs():
    time.sleep(2)
for single_url in urls:
    get_favs(single_url)

103动态数据

第一步 什么是异步加载

第二步 如何抓取异步加载数据

def get_page(url,data=None):
    xxxxx
    print(data)
def get_more_pages(start,end):
    for one in range(start,end):
        get_page(url+str(one))
        time.sleep(2)

104实战作业

举报

相关推荐

0 条评论