0
点赞
收藏
分享

微信扫一扫

【Java-LangChain:使用 ChatGPT API 搭建系统-3】评估输入-分类



Python3中类的高级语法及实战

Python3(基础|高级)语法实战(|多线程|多进程|线程池|进程池技术)|多线程安全问题解决方案

Python3数据科学包系列(一):数据分析实战

Python3数据科学包系列(二):数据分析实战

Python3数据科学包系列(三):数据分析实战




一:  数据分析与挖掘认知升维


我们知道在数据分析与数据挖掘中,数据处理是一项复杂且繁琐的工作,同时也是整个数据分析过程中的最为重要的环节;数据处理一方面能提供数据的质量;另一方面能让数据更好的使用数据分析工具;

数据处理的主要内容包括:

(1) 数据清洗

      1.1 重复值处理

       1.2 缺少值处理

(2) 数据的抽取

       2.1 字段抽取

       2.2 字段拆分

       2.3 重置索引

       2.4 记录抽取

       2.5 随机抽样

       2.6 通过索引抽取数据

       2.7 字典数据抽取

       2.8 插入数据

       2.9 修改数据记录

(3) 数据交换

       3.1 交换行与列

       3.2  排名索引

       3.3  数据合并

(4) 数据计算

        4.1 简单计算 (加,减,乘,除的计算)

        4.2  数据标准化

         4.3  数据分组

         4.4  日期处理

....................

(5) 数据可视化

            5.1 图表化

             5.2 Excel|Word|PPT化


 二:数据处理

数据清洗认知升级:
   在数据分析时,海量的原始数据中存在大量不完整,不一致,有异常的数据,严重影响到数据分析的结果;
   索引进行数据清洗很重要,数据清洗是数据价值链中最关键的步骤。垃圾数据,即使是通过最好的分析,也将
   产生错误的结果,并误导业务本身.因此在数据分析过程中.数据清洗占据很大的工作量
   数据清洗就是处理缺失的数据以及清除无意义的信息,如删除原始数据集中的无关数据,重复数据,平滑噪声数据,
   筛选掉与分析主题无关的数据,处理缺失值,异常值等
数据清洗:
   一: 重复值的处理
   二: 缺失的处理

三:  缺失值处理

认知升维
   从统计上说,缺失的数据可能会产生有偏估计,从而导致样本数据不能很好地代表总体,
   而现实中绝大部分数据都包含缺失值,因此如何处理缺失值很重要。
   一般来说,缺失值的处理包括两个步骤:
   (1)缺失数据的识别
    (2)缺失数据的处理

四:  数据抽取


举报

相关推荐

ChatGPT 聊天接口API 使用

0 条评论