1分类型变量变换
- 类型的数值编码
当训练模型时,数据集中的字段包含符号字段(分类字段)时,而且该字段也需要被用来参与建模,并且该模型算法需要使用所有记录的数值来进行算法计算。这种情况下就对符号字段提出了挑战。
一般的做法是将该符号字段编码为一组数值字段,该组数值字段的个数等于该符号字段的分类个数,一个分类对应一个数值字段。对于该符号字段的每一个取值,对应于该值的那个数值字段的值均被设置为1,其他数值字段的值均被设置为0。这组数值字段(衍生字段)被称为indicator(指示)字段,或者dummy(虚拟)字段。例如,对于下列3条数据,X是一个符号字段,取值为A,B,C,那么他可以被转化为衍生字段X1,X2,X3。
- 联合字段合并
稀疏矩阵是数据分析时一种常见的数据形式。稀疏矩阵是指一个矩阵中,非零元素的值占很小一部分,绝大多数元素取值为零,并且非零元素的分布一般没有什么规律。笔者在做项目过程中遇到一个实际的项目时,遇到一个稀疏矩阵的问题,二维表中每一列代表客户持有的产品状态,1代表持有,0代表未持有。要找出客户持有产品的规律,就是将稀疏矩阵中每行的取值转化为一个字符串,即字符串“0000000000”代表十列数据取值都为0的情况。通过这种方式,其实就是用新的一列代表了原来10列数据信息。
df = pd