102 解析网页中的元素
第一步 使用BeautifulSoup解析网页
Soup = BeautifulSoup(html,'lxml')
lxml:
第二步 描述要爬取的东西在哪
image = soup.select('???')
第三步 从标签中获取信息,并整理格式放进容器中
<p>something</p>⬇️
{title = something
rate = 40 }
103解析真实网页
用Requests+BeautifulSoup爬取Tripadvisor
第一步:服务器与本地交换的机制
Request:get & post
Response:status_code+网页内容
第二步:解析真实网页的方法
url = ''
web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
headers
headers = {
'User-Agent': ,
'Cookie':
}
url = ''
web_Data = requests.get(url,headers=headers)
用函数规范
连续爬取多页
urls= ['xxxxxx{}xxxxx'.format(str(i)) for i in range(30,930,30)]
def get_favs():
time.sleep(2)
for single_url in urls:
get_favs(single_url)
103动态数据
第一步 什么是异步加载
第二步 如何抓取异步加载数据
def get_page(url,data=None):
xxxxx
print(data)
def get_more_pages(start,end):
for one in range(start,end):
get_page(url+str(one))
time.sleep(2)