0
点赞
收藏
分享

微信扫一扫

Hudi extraMetadata 研究总结

首先,多数情况下免费版本的功能,已经可以满足绝大多数采集需求,想了解八爪鱼采集器版本区别的详情,请访问这篇帖子:https://blog.csdn.net/cctv1123/article/details/139581468

八爪鱼采集器免费版和个人版、团队版下载链接:
1.软件分享[耶]八爪鱼,爬取了几百条网站上的公开数据,不用学代码真的很方便。[得意]https://affiliate.bazhuayu.com/retrieve

通过前面的学习,我们已经进入到设计采集规则的实操课程。下面以一个实际案例来解答今天的课程要点:

工作流程设置

我们来采集西瓜视频的视频标题、播放数、发布者昵称、发布者主页链接、发布时间作为实例解读

602f64ba447c41c2b7d454c8fc7aab9a.png

我在之前的一个视频直播课中有说过一个观点,设计规则就那么三板斧:翻页(滚屏)、循环、数据提取,

翻页(滚屏)

08514a5a2d32428daa38d8e8afb747a6.png

 

列表循环

4a5b5e409e6a45a3a16eadd6e1675e09.png

添加循环,如果是通过点击操作,就可以通过点击标题文字,在添加“选中全部相似元素”,这个时候会构建一个循环和数据提取的模块。

9abf276cc85047afb738f53e932c6724.png

在循环模块的预览小图标中点击一下,可以看到预览的文字数据,如果是我们想要的信息,就匹配争取了

数据提取

4f97393bdfc8439ea6c29dc07fa26508.png

首先要分析自己要点数据是在这个循环里面,还是不在,如果在就勾选“采集当前循环中设置的元素”,不是则不勾选。

双击数据预览窗口的字段表头,可修改字段名称,这里修改的就是导出的表格文件的表头。

 

数据预览

数据预览有三种形态,

第一种是采集规则设计的时候设计器里面的数据预览

第二种,是采集规则运行时候显示网页和数据字段采集的预览

第三种,是采集规则采集到结果的大界面数据预览

670b9df23d3e4ad898d9f2943d2f6f3e.png

0bc4a745edf841908600611de80705f2.png

499ba8e001b045009375ee8f7019d41c.png

第一种可以理解为设计器里面的预览,这还不一定是采集器执行时候能够采集到的数据,是无法导出的数据。

第二三中,就是采集器运行后,执行采集动作可以采集到的数据信息,这个信息是可以导出到表格存在电脑里的。

7d3964249f724f7fb2e041b2c835f502.png

打开我们导出的本地文档,就可以看到我们最终导出的数据到底是什么样的,如果有乱码或错误,就需要在界面中修改元素定位的xpath或者整个采集流程的结构。

 

做个总结,这篇教程讲的工作流程设置的三板斧,翻页、循环、数据提取,还介绍了数据预览的三种情况。下一节课我们说说:如何选择目标网站


这贴是教程专栏的目录链接:

八爪鱼采集器入门基础教程,日常更新中-CSDN博客

d8990e45f96d4ec6aa71d2ae234e2b92.png

 

举报

相关推荐

HUDI preCombinedField 总结

Apache hudi

ChatGPT学习研究总结

研究生总结

编译Hudi

Flink Hudi分析

0 条评论