工具
八爪鱼目前最新8.5.1版本。
采集场景
京东商品详情页中的评价,有多个分类:【全部评价】、【晒图】、【视频晒单】、【追评】、【好评】、【中评】、【差评】。其中【全部评价】默认展现,其他需点击后展现。本文以按【差评】筛选采集为例讲解。
实例网址:https://item.jd.com/100005185609.html。
采集目标字段
- 评价正文
- 评价星级
- 商品参数
- 评价时间
- 页面网址
- 评价获赞数
- 评价获回复数
支持采集结果导出
采集结果可导出为Excel、CSV、HTML、数据库等多种格式。
教程说明
当前软件修改版本为: 8.5.1(2022/4/3)
如果因网页改版造成网址或步骤无效导致无法收集到目标数据,建议联系八爪鱼官方客服。
采集步骤纵览
步骤一:打开网页
步骤二、设置滚动
步骤三、按差评筛选评论
步骤四、创建【循环列表】,采集所有评价数据
步骤五、创建循环翻页,以采集多页数据
步骤六、启动采集
以下为具体的采集步骤:
步骤一、打开网页
在首页选择【新建】——【自定义任务】,输入一批(或者1个)京东商品详情页网址,点击【开始采集】,八爪鱼自动打开第1个网址。
目标网址:https://item.jd.com/100005185609.html
特别说明:
a. 打开网页后,如果开始开始【自动识别】,请等待自动识别完成。八爪鱼支持自动识别网页上的列表,滚动和翻页,识别成功后直接启动采集并获取数据。如果【自动识别】的结果不是我们需要的,可点击【取消】关闭智能识别,自行配置采集流程。
b. 以上操作会自动生成一个【循环网址】,启动采集后,八爪鱼会自动打开每个网址,采集每个网址中的数据。
c. 示例中输入了3个商品详情页网址,可根据需求更换。
步骤二、设置滚动
【商品评价】按钮需向下滚动页面才会真正加载出来,在八爪鱼中也需设置滚动。
单击右侧流程中的节点【打开网页】,显示下部对应的设置区域。在【高级设置】部分,在“步骤加载”下部勾选【页面滚动】。弹出新的【页面滚动】相关设置项。把“滚动方式”选择为【向下滚动一屏】,【滚动次数】为6次,【每次间隔】2秒。最后,点击下部【应用】按钮,之后点击右上方的【保存】按钮。
【特别说明】
设置中的滚动次数和时间间隔,请根据采集需求和网页加载情况进行设置,并非是一成不变的。
步骤三、按差评筛选评论
1、筛选【差评】
向下滚动页面(左上部)中的目标页面至评论区域,如下图:
【STEP A】点击【商品评价(50万+)】,在操作提示框中点击【点击该元素】,页面默认展示【全部评价】。
注意:本示例将筛选【差评】进行采集。
【STEP B】点击【差评】,在操作提示框中点击【点击该链接】,(操作提示框小窗妨碍操作时,可以临时把它折叠一下),展开差评。此时,显示如下图界面:
特别说明:
【晒图】、【视频晒单】、【追评】、【好评】、【中评】、【差评】的筛选方法也是一样的,需要筛选哪个分类,在八爪鱼中做一个点击哪个分类的步骤。
2、设置【Ajax加载】
【小心】此网页的【差评】按钮,使用了Ajax加载,因此不能勾选新标签!
为此,进入【点击元素1】设置页面,取消勾选“高级设置”中【在新标签中打开】选项,并勾上【Ajax加载】,【Ajax超时】时间选择5秒,点击“应用,最后【保存】。
特别说明:
使用了Ajax技术的网页,一般不勾选【在新标签中打开】。【Ajax超时】请根据采集需求和网页加载情况进行设置,并非一成不变。
步骤四★、创建【循环列表】,采集所有评价数据
1、建立【循环列表】
通过以下连续3步,建立【循环列表】:
(1)选中页面上1个评价列表(两条水平横线间的完整部分!!)
(2)继续选中页面上第2个评价列表
(3)在操作提示框中,点击【采集以下元素文本】
此时将整个评价列表作为整个字段提取下来,这就像通过手动方式将列表中的字段一一提取出来一样。
【特别说明】
经过以上连续3步,【循环-提取数据】创建完成。【循环】中的项,对应着页面上所有评价列表。此时是将整个评价列表作为整个字段提取下来,如手动将列表中的字段一一提取出来。
2、修改【循环列表】XPath
为了精准采集到所有差评,需修改【循环列表】XPath。
点击流程图中的【循环列表】节点,显示出下部对应的【循环列表】设置页面,修改XPath为//div[@id='comment-6']/div[position()<11]并保存。
【特别说明】
a. 默认生成的【循环列表】会定位到其他类别的评价中,无法精准采集差评,所以我们需要手动修改XPath。这里需要一定的XPath知识。点击查看 XPath学习与实例教程 。
b. 除默认的【全部评价】外,采集其他的分类都需相应修改XPath。
【视频晒单】://div[@id='comment-2']/div[position()<11]
【追评】://div[@id='comment-3']/div[position()<11]
【好评】://div[@id='comment-4']/div[position()<11]
【中评】://div[@id='comment-5']/div[position()<11]
3、提取字段
在左上部目标网页中找到当前评价列表(图中以红色框框起来的部分)。
选中待采集的第1个目标字段,然后在操作提示框中,点击【采集该元素的文本】。
文本类的字段都可如此提取。示例中我们提取了评价人、评价正文、评价星级、商品参数、评价时间等5个字段。
特别说明:
a. 一定要在当前评价列表中选择评价星级,做星级字段的提取,否则星级字段提取与【循环】中的评价列表无法产生联动,会一直重复采集某一个评价列表中的星级。★★★
b. 如何找到当前评价列表?在【循环列表】中查看当前项(蓝色背景),然后点击【提取列表数据】,网页中被红色框框起来的评价列表,就是当前评价列表。
4、编辑字段
在【当前页面数据预览】界面,可进行删除字段、修改字段名等操作。
步骤五、创建循环翻页,以采集多页数据
1、建立【循环翻页】
如果只是采集1页数据,可跳过此步骤五。
如果需要翻页以采集多页数据:点击页面中的【下一页】按钮(把页面往下滚动下翻,到最底部,如图——在不同网站上可能表述所有区别!)。
然后,在操作提示上单击【循环点击下一面】,从而创建“循环翻页”。
特别说明:
a. 创建【循环翻页】后,八爪鱼会自动点击【下一页】按钮进行翻页,从第1页,第2页......直到最后1页。如果只需采集特定页的数据,可在八爪鱼中设置循环翻页的次数,详情点击查看 翻页以采集多页数据教程。
2、修改【循环翻页】的XPath★★★
默认的【循环翻页】XPath无法精准定位到差评的翻页,需修改【循环翻页】XPath,如图(内容为空)。
进入上面“循环翻页”的【基础设置】界面,修改XPath内容为://div[@id='comment-6']//div[@class="ui-page"]//a[@class="ui-pager-next"] ,然后保存。
同时,调整【点击翻页】的【Ajax超时】时间为5秒(在【高级设置】界面里面)。
特别说明:
a. 默认生成的【循环翻页】会定位到其他类别的翻页按钮,无法精准采集差评,所以我们需要手动修改XPath。这里需要一定的XPath知识。点击查看 XPath学习与实例教程 。
b. 除默认的【全部评价】外,采集其他的分类都需相应修改XPath。
【视频晒单】://div[@id='comment-2']//div[@class="ui-page"]//a[@class="ui-pager-next"]
【追评】://div[@id='comment-3']//div[@class="ui-page"]//a[@class="ui-pager-next"]
【好评】://div[@id='comment-4']//div[@class="ui-page"]//a[@class="ui-pager-next"]
【中评】://div[@id='comment-5']//div[@class="ui-page"]//a[@class="ui-pager-next"]
c. 对于使用了Ajax技术的网页,八爪鱼会自动判断并设置【Ajax超时】。如果系统自动设置的时间过短,可根据采集需求和网页加载情况进行相应延长,详情点击查看 Ajax教程 。
步骤六、启动采集
1、点击【采集】命令并【启动本地采集】。启动后八爪鱼开始自动采集数据。
特别说明:
【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集。
2、采集完成后,选择合适的导出方式来导出数据。支持导出为Excel,CSV,HTML,数据库等。这里导出为Excel。
示例数据略。
小结
八爪鱼这款采集器本人尚未熟悉,但是从与目前国内市场其他几款采集工具试用比较来看,还是比较熟悉上手的,特别是其提供的可以反复修改的比较直观的流程图引导,这非常有助于采集器小白快速熟悉。
最后,XPath知识我估计是每一个采集者无法逾越的”难点“。当然,本文中也没有详细解释,后面会专门写文章介绍这个”家伙“!