python爬虫（一）BeautifulSoup解析网页

102 解析网页中的元素

第一步使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,'lxml')

lxml：

第二步描述要爬取的东西在哪

image = soup.select('???')

第三步从标签中获取信息，并整理格式放进容器中

<p>something</p>⬇️
{title = something 
 rate  = 40       }

103解析真实网页

用Requests+BeautifulSoup爬取Tripadvisor

第一步：服务器与本地交换的机制

Request：get & post

Response：status_code+网页内容

第二步：解析真实网页的方法

url = ''
web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')

headers

headers = {
    'User-Agent': ,
    'Cookie': 
}
url = ''
web_Data = requests.get(url,headers=headers)

用函数规范

连续爬取多页

urls= ['xxxxxx{}xxxxx'.format(str(i)) for i in range(30,930,30)]
def get_favs():
    time.sleep(2)
for single_url in urls:
    get_favs(single_url)

103动态数据

第一步什么是异步加载

第二步如何抓取异步加载数据

def get_page(url,data=None):
    xxxxx
    print(data)
def get_more_pages(start,end):
    for one in range(start,end):
        get_page(url+str(one))
        time.sleep(2)

104实战作业

0 条评论

python爬虫（一）BeautifulSoup解析网页

102 解析网页中的元素

第一步 使用BeautifulSoup解析网页

第二步 描述要爬取的东西在哪

第三步 从标签中获取信息，并整理格式放进容器中

103解析真实网页

第一步：服务器与本地交换的机制

第二步：解析真实网页的方法

103动态数据

第一步 什么是异步加载

第二步 如何抓取异步加载数据

104实战作业

第一步使用BeautifulSoup解析网页

第二步描述要爬取的东西在哪

第三步从标签中获取信息，并整理格式放进容器中

第一步什么是异步加载

第二步如何抓取异步加载数据