0
点赞
收藏
分享

微信扫一扫

北美电池测试标准解读:UL 1642、UL 2054、UL 2056、UL 2089 测试报告

Brose 2023-09-05 阅读 15

大数据的关键技术之——大数据采集

本文目录:

一、写在前面的话

二、大数据采集概念

三、大数据采集步骤

3.1、大数据采集步骤(总体角度)

3.2、大数据采集步骤(数据集角度)

3.3、大数据采集步骤(数据集角度)

四、数据源与数据类型的关系

4.1、大数据体系数据

4.2、数据源与数据类型的关系

五、大数据体系中数据类型

5.1、结构化数据

5.2、半结构化数据

5.3、非结构化数据

六、大数据采集技术

6.1、web数据采集

6.2、系统日志采集

6.3、数据库采集

6.4、其他数据(感知设备等数据采集)

七、大数据采集方式

八、大数据采集特点


一、写在前面的话

 2ab463de26a541818271efa176656ae6.png

f3751a45350f4910835ba888fb79118a.gif

二、大数据采集概念

        根据涉及领域的不同,大数据的关键技术可以分为大数据采集、大数据预处理、大数据存储及管理、大数据处理、大数据分析及挖掘、大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)等几大方面。

        大数据采集处于大数据生命周期中第一个环节,是大数据产业的基石。    

        大数据采集是大数据分析的入口,是大数据分析至关重要的一个环节。

        采集过程通常需要使用各种技术工具和技术平台,例如网络爬虫、数据挖掘、自然语言处理等。

        在大数据应用领域,采集是整个数据处理流程中非常重要的一环。大数据中采集出有用的信息已经是大数据发展的关键因素之一。

三、大数据采集步骤

(3.1)、大数据采集步骤(总体角度)

(3.2)、大数据采集步骤(数据集角度)

(3.3)、大数据采集步骤(数据集角度)

        在大数据采集过程中,需要考虑隐私和数据安全等方面的问题,确保采集的数据不会被盗用或滥用。

四、数据源与数据类型的关系

4.1、大数据体系数据

        在大数据体系中,传统数据分为业务数据和行业数据,传统数据体系中没有考虑过的新数据源包括内容数据、线上行为数据和线下行为数据 3 大类。

        不同识别技术在不同的领域有着各自的作用,这些识别技术可以作为单独的系统存在,同时也可以进行多样的融合。

4.2、数据源与数据类型的关系

        对于大数据的处理,需要对不同类型的数据进行不同的处理方法和技术,如对结构化数据进行分布式处理使用Hadoop和Spark,对非结构化数据进行分类和标记使用机器学习算法等。因此,在大数据处理过程中,了解数据源和数据类型的关系非常重要。

        大数据体系中,数据源与数据类型的关系如下图所示:

        大数据体系中,数据源和数据类型有密切的关系。

        数据源通常是指大数据存储和处理的起点,数据源可以包括传感器、网站、社交媒体、物联网设备、移动应用程序、云存储、数据库等各种类型的数据来源。

        不同的数据源可能包含不同类型的数据,例如传感器数据通常是结构化数据,而社交媒体中的帖子和评论则属于半结构化数据,而照片和视频则是非结构化数据。

五、大数据体系中数据类型

5.1、结构化数据

        这些数据结构集中于数字、日期、文本、金额、时间戳货币、比率、证书、地址、电话号码、电子邮件等等类型的数据,并具有明确的数据类型和字段名称。结构化数据易于处理和管理,可以通过SQL查询和其他数据分析工具对其进行分析和处理。结构化数据的清晰结构化和组织形式,使其在数据分析、机器学习、人工智能应用等领域得到广泛应用。例如企业数据管理系统、业务报告等。

5.2、半结构化数据

        半结构化数据主要应用于Web应用、文本处理、语义分析等领域中,能够很好地满足数据处理的灵活性要求。常见的半结构化数据源包括日志文件、社交媒体数据、传感器数据等。

5.3、非结构化数据

        因此,数据源的不同类型往往会对数据的类型产生影响,而不同类型的数据也需要使用不同的技术和方法进行处理和分析。

六、大数据采集技术

        大数据的采集从数据源上可以分为四类:

6.1、web数据采集

(此图来源于网络www.yisu.com/news/id_335.html)

        网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的过程。

        网络爬虫会从一个或若干初始网页的 URL 开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列,直到满足设置的停止条件为止。

        这样可将非结构化数据、半结构化数据从网页中提取出来,并以结构化的方式存储在本地的存储系统中。

6.2、系统日志采集

(此图来源于网络developer.aliyun.com/article/594990)

6.3、数据库采集

        在进行大数据采集时,需要考虑以下几个方面:

1. 采集的数据类型:数据类型可以是结构化、半结构化或非结构化数据。这些数据类型的采集方法和采集工具都有所不同,需要根据不同的数据类型来选择采集工具。

2. 数据源:采集数据的数据源通常有多种,包括传感器、数据库、网站、社交网络等。需要根据数据源的特点来选择采集的方法和工具。

3. 数据采集技术:数据采集的技术包括爬虫、ETL等,需要根据采集的数据类型和数据源来选择合适的采集技术。

4. 数据采集的频率:根据不同的数据源和数据类型来确定数据采集的频率,以保证数据的时效性和准确性。

5. 数据采集的存储和处理:采集到的数据需要进行存储和处理,以便后续的分析和应用。需要选择合适的存储和处理技术来满足需求。

传统企业会使用传统的关系型数据库 MySQL 和 Oracle 等来存储数据。

6.4、其他数据(感知设备等数据采集)

(此图来源于网络)

        感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。其关键技术包括针对大数据源的智能识别、感知、适配、传输、接入等。

七、大数据采集方式

八、大数据采集特点

 大数据文章:

  • 大数据(一)定义、特性
  • 大数据(二)大数据行业相关统计数据
  • 大数据(三)大数据相关的职位
  • 基于Echarts构建大数据可视化大屏
  • 大数据(四)主流大数据技术
  • 大数据的关键技术之——大数据采集

          推荐阅读:

[你找到牵手一辈子的人了吗?] 七夕情人节特辑
数字技术能让古籍“活过来”吗?
心情不好时,帮自己训练个AI情绪鼓励师吧(基于PALM 2.0 finetune)
深度学习框架TensorFlow
人工智能开发人员工作流程、看法、工具统计数据
2023 年6月开发者调查统计结果——最流行的技术(2)
2023 年6月开发者调查统计结果——最流行的技术(1)
让Ai帮我们画个粽子,它会画成什么样呢?

9e598365ba5344e282453e71a676a056.jpeg​​

b9b9f2b9374646798ca554110a498cda.jpeg​​

23f61e3eac99458296be0fedea10019e.jpeg​​

给照片换底色(python+opencv)猫十二分类基于大模型的虚拟数字人__虚拟主播实例

bfa502b957c247a7872d7e645d4c6f03.jpeg​​

2f073e39924e42d2b33221f4262dcc1d.jpeg​​

9d7e2b6a00aa45fd82291f0d5f9eea7e.jpeg​​

计算机视觉__基本图像操作(显示、读取、保存)直方图(颜色直方图、灰度直方图)直方图均衡化(调节图像亮度、对比度)

01bfb23f2f894ee0b0164f52e57bbbbc.png​​

47c92d6cf9fe4d279a142480a4340a0d.png​​

1620a2a7b0914c42b3a8254e94269a79.png​​

 语音识别实战(python代码)(一)

 人工智能基础篇

 计算机视觉基础__图像特征

93d65dbd09604c4a8ed2c01df0eebc38.png​​

 matplotlib 自带绘图样式效果展示速查(28种,全)

074cd3c255224c5aa21ff18fdc25053c.png​​

Three.js实例详解___旋转的精灵女孩(附完整代码和资源)(一)

fe88b78e78694570bf2d850ce83b1f69.png​​

62e23c3c439f42a1badcd78f02092ed0.png​​

cb4b0d4015404390a7b673a2984d676a.png​​

立体多层玫瑰绘图源码__玫瑰花python 绘图源码集锦

 Python 3D可视化(一)

 让你的作品更出色——词云Word Cloud的制作方法(基于python,WordCloud,stylecloud)

e84d6708316941d49a79ddd4f7fe5b27.png​​

938bc5a8bb454a41bfe0d4185da845dc.jpeg​​

0a4256d5e96d4624bdca36433237080b.png​​

 python Format()函数的用法___实例详解(一)(全,例多)___各种格式化替换,format对齐打印

 用代码写出浪漫__合集(python、matplotlib、Matlab、java绘制爱心、玫瑰花、前端特效玫瑰、爱心)

python爱心源代码集锦(18款)

dc8796ddccbf4aec98ac5d3e09001348.jpeg​​

0f09e73712d149ff90f0048a096596c6.png​​

40e8b4631e2b486bab2a4ebb5bc9f410.png​​

 Python中Print()函数的用法___实例详解(全,例多)

 Python函数方法实例详解全集(更新中...)

 《 Python List 列表全实例详解系列(一)》__系列总目录、列表概念

09e08f86f127431cbfdfe395aa2f8bc9.png​​

6d64357a42714dab844bf17483d817c0.png​​

用代码过中秋,python海龟月饼你要不要尝一口?

 python练习题目录

03ed644f9b1d411ba41c59e0a5bdcc61.png​​

daecd7067e7c45abb875fc7a1a469f23.png​​

17b403c4307c4141b8544d02f95ea06c.png​​

草莓熊python turtle绘图(风车版)附源代码

 ​草莓熊python turtle绘图代码(玫瑰花版)附源代码

 ​草莓熊python绘图(春节版,圣诞倒数雪花版)附源代码

4d9032c9cdf54f5f9193e45e4532898c.png​​

c5feeb25880d49c085b808bf4e041c86.png​​

 巴斯光年python turtle绘图__附源代码

皮卡丘python turtle海龟绘图(电力球版)附源代码

80007dbf51944725bf9cf4cfc75c5a13.png​​

1ab685d264ed4ae5b510dc7fbd0d1e55.jpeg​​

1750390dd9da4b39938a23ab447c6fb6.jpeg​​

 Node.js (v19.1.0npm 8.19.3) vue.js安装配置教程(超详细)

 色彩颜色对照表(一)(16进制、RGB、CMYK、HSV、中英文名)

2023年4月多家权威机构____编程语言排行榜__薪酬状况

aa17177aec9b4e5eb19b5d9675302de8.png​​​

38266b5036414624875447abd5311e4d.png​​

6824ba7870344be68efb5c5f4e1dbbcf.png​​

 手机屏幕坏了____怎么把里面的资料导出(18种方法)

【CSDN云IDE】个人使用体验和建议(含超详细操作教程)(python、webGL方向)

 查看jdk安装路径,在windows上实现多个java jdk的共存解决办法,安装java19后终端乱码的解决

1408dd16a76947e4a7eb3c54cd570d95.png​​

vue3 项目搭建教程(基于create-vue,vite,Vite + Vue)

fea225cb9ec14b60b2d1b797dd8278a2.png​​

bba02a1c4617422c9fbccbf5325850d9.png​​

37d6aa3e03e241fa8db72ccdfb8f716b.png​​

2023年春节祝福第二弹——送你一只守护兔,让它温暖每一个你【html5 css3】画会动的小兔子,炫酷充电,字体特

 别具一格,原创唯美浪漫情人节表白专辑,(复制就可用)(html5,css3,svg)表白爱心代码(4套)

SVG实例详解系列(一)(svg概述、位图和矢量图区别(图解)、SVG应用实例)

5d409c8f397a45c986ca2af7b7e725c9.png​​

6176c4061c72430eb100750af6fc4d0e.png​​

1f53fb9c6e8b4482813326affe6a82ff.png​​

【程序人生】卡塔尔世界杯元素python海龟绘图(附源代码),世界杯主题前端特效5个(附源码)HTML+CSS+svg绘制精美彩色闪灯圣诞树,HTML+CSS+Js实时新年时间倒数倒计时(附源代码)

 2023春节祝福系列第一弹(上)(放飞祈福孔明灯,祝福大家身体健康)(附完整源代码及资源免费下载)

fffa2098008b4dc68c00a172f67c538d.png​​

5218ac5338014f389c21bdf1bfa1c599.png​​

c6374d75c29942f2aa577ce9c5c2e12b.png​​

 tomcat11、tomcat10 安装配置(Windows环境)(详细图文)

 Tomcat端口配置(详细)

 Tomcat 启动闪退问题解决集(八大类详细)

举报

相关推荐

亚马逊各产品UL测试报告

0 条评论