0
点赞
收藏
分享

微信扫一扫

7.wifi开发【智能家居:终】,实践总结:智能开关,智能采集温湿,智能灯。项目运行步骤与运行细节,技术归纳与提炼,项目扩展

一、数据规范化的原理

数据规范化处理是数据挖掘的一项基础工作。不同的属性变量往往具有不同的取值范围,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果。为了消除指标之间由于取值范围带来的差异,需要进行标准化处理。将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。

1.1.最小-最大规范化

clear;clc;
A = [78 521 602 2863
    144 -600 -521 2245
    95 -457 468 -1283
    69 596 695 1054
    190 527 691 2051
    101 403 470 2487
    146 413 435 2571];

new = input("请输入需要映射到的新区间。输入格式示例:[0,1]\n");
new_mi = new(1);
new_mx = new(2);
% 计算每列的最小值和最大值
min_vals = min(A);
max_vals = max(A);

% 对每个元素进行最小-最大规范化
normalized_A = (A - min_vals) ./ (max_vals - min_vals)* (new_mx - new_mi) + new_mi;;

disp(normalized_A);
A = [78 521 602 2863
    144 -600 -521 2245
    95 -457 468 -1283
    69 596 695 1054
    190 527 691 2051
    101 403 470 2487
    146 413 435 2571];
new = input("请输入需要映射到的新区间。输入格式示例:[0,1]\n");
new_mi = new(1);
new_mx = new(2);
B = mapminmax(A',new_mi ,new_mx)';
fprintf("\n经过最小最大规范化后:\n"); 
disp(B)
代码运行结果

输入的新区间范围为[0,1]:

原数据:
A =

          78         521         602        2863
         144        -600        -521        2245
          95        -457         468       -1283
          69         596         695        1054
         190         527         691        2051
         101         403         470        2487
         146         413         435        2571

请输入需要映射到的新区间。输入格式示例:[0,1]
[0,1]

经过最小最大规范化后:
B =

    0.0744    0.9373    0.9235    1.0000
    0.6198         0         0    0.8509
    0.2149    0.1196    0.8133         0
         0    1.0000    1.0000    0.5637
    1.0000    0.9423    0.9967    0.8041
    0.2645    0.8386    0.8150    0.9093
    0.6364    0.8470    0.7862    0.9296

 1.2零-均值规范化

clear;clc;

%% 数据存入A
A=[78 521 602 2863	
144 -600 -521 2245	
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];

A_mean=mean(A); % mean求的是每列的均值
A_std=std(A); % std求的是每列的标准差
[n,m]=size(A);
B=(A-A_mean)./A_std;

fprintf("原数据:"); 
disp(A);
fprintf("经过零均值规范化后:"); 
disp(B);
代码运行结果
原数据:
A =

          78         521         602        2863
         144        -600        -521        2245
          95        -457         468       -1283
          69         596         695        1054
         190         527         691        2051
         101         403         470        2487
         146         413         435        2571

经过零均值规范化后:
B =

   -0.9054    0.6359    0.4645    0.7981
    0.6047   -1.5877   -2.1932    0.3694
   -0.5164   -1.3040    0.1474   -2.0783
   -1.1113    0.7846    0.6846   -0.4569
    1.6571    0.6478    0.6752    0.2348
   -0.3791    0.4018    0.1521    0.5373
    0.6504    0.4216    0.0693    0.5956
clear;clc;

%% 数据存入A
A=[78 521 602 2863	
144 -600 -521 2245	
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];

B = zscore (A); % 沿每列计算标准差

fprintf("原数据:"); 
disp(A);
fprintf("经过零均值规范化后:"); 
disp(B);

 1.3小数定标规范化

clear;clc;

%% 数据存入A
A = [78 521 602 2863
    144 -600 -521 2245
    95 -457 468 -1283
    69 596 695 1054
    190 527 691 2051
    101 403 470 2487
    146 413 435 2571];

mx = max(abs(A)); % 求每列绝对值最大的数mx
len = floor(log10(mx))+1; % 求mx的位数len
B = A ./ (10.^len); % 将A中每个元素除以10^len

fprintf("原数据:\n"); 
disp(A);
fprintf("经过小数定标规范化:\n"); 
disp(B);
代码运行结果
原数据:
A =

          78         521         602        2863
         144        -600        -521        2245
          95        -457         468       -1283
          69         596         695        1054
         190         527         691        2051
         101         403         470        2487
         146         413         435        2571

经过小数定标规范化后:
B =

    0.0780    0.5210    0.6020    0.2863
    0.1440   -0.6000   -0.5210    0.2245
    0.0950   -0.4570    0.4680   -0.1283
    0.0690    0.5960    0.6950    0.1054
    0.1900    0.5270    0.6910    0.2051
    0.1010    0.4030    0.4700    0.2487
    0.1460    0.4130    0.4350    0.2571
举报

相关推荐

0 条评论