0
点赞
收藏
分享

微信扫一扫

Python爬虫之Js逆向案例-拼多多整站商品详情数据并且分析拼多多数据

刘员外__ 2023-04-20 阅读 77

本项目用来抓取拼多多平台整站实时商品详情数据信息、商品列表信息和商品优惠券数据,数据库采用Mysql。 

爬虫的核心模块采用WebMagic,主要实现了Pinduoduo PageProcessor类,继承自PageProcessor。 采用XPath和CSS Selector两种模式抽取网页信息。如抽取商品页面用户链接信息: 

String aHref = html.xpath("div[@class='item']/div[@class='user']/div[@class='u-icon']/a/@href").toString();

支持 windoes,mac 操作系统 

v1.0版即将上线

1.关键词+筛选条件 采集 商品数据 

2.店铺内 条件筛选 采集 商品数据 

3.导出Excel 

采用的是Xpath抽取方式,过程:提取html中class为item的div中的class为user的div中的class为u-icon中的超链接。封装接口代码教程如下:

1.请求方式:HTTPS GET POST

2.请求链接:http://c0b.cc/R4rbK2 

3.请求代码示例,支持高并发请求(CURL、PHP 、PHPsdk 、Java 、C# 、Python...)

# coding:utf-8
"""
Compatible for python2.x and python3.x
requirement: pip install requests
"""
from __future__ import print_function
import requests
# 请求示例 url 默认请求参数已经做URL编码
url = "https://api-gw.taobaoapi2014.cn/pinduoduo/item_get/?key=<您自己的apiKey>&secret=<您自己的apiSecret>&num_iid=1620002566"
headers = {
    "Accept-Encoding": "gzip",
    "Connection": "close"
}
if __name__ == "__main__":
    r = requests.get(url, headers=headers)
    json_obj = r.json()
    print(json_obj)

4.响应示例因文章字符限制,暂不展示全部。

Python爬虫之Js逆向案例-拼多多整站商品详情数据并且分析拼多多数据_json

举报

相关推荐

0 条评论