一、数据规范化的原理
数据规范化处理是数据挖掘的一项基础工作。不同的属性变量往往具有不同的取值范围,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果。为了消除指标之间由于取值范围带来的差异,需要进行标准化处理。将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。
1.1.最小-最大规范化
clear;clc;
A = [78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];
new = input("请输入需要映射到的新区间。输入格式示例:[0,1]\n");
new_mi = new(1);
new_mx = new(2);
% 计算每列的最小值和最大值
min_vals = min(A);
max_vals = max(A);
% 对每个元素进行最小-最大规范化
normalized_A = (A - min_vals) ./ (max_vals - min_vals)* (new_mx - new_mi) + new_mi;;
disp(normalized_A);
A = [78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];
new = input("请输入需要映射到的新区间。输入格式示例:[0,1]\n");
new_mi = new(1);
new_mx = new(2);
B = mapminmax(A',new_mi ,new_mx)';
fprintf("\n经过最小最大规范化后:\n");
disp(B)
代码运行结果
输入的新区间范围为[0,1]:
原数据:
A =
78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571
请输入需要映射到的新区间。输入格式示例:[0,1]
[0,1]
经过最小最大规范化后:
B =
0.0744 0.9373 0.9235 1.0000
0.6198 0 0 0.8509
0.2149 0.1196 0.8133 0
0 1.0000 1.0000 0.5637
1.0000 0.9423 0.9967 0.8041
0.2645 0.8386 0.8150 0.9093
0.6364 0.8470 0.7862 0.9296
1.2零-均值规范化
clear;clc;
%% 数据存入A
A=[78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];
A_mean=mean(A); % mean求的是每列的均值
A_std=std(A); % std求的是每列的标准差
[n,m]=size(A);
B=(A-A_mean)./A_std;
fprintf("原数据:");
disp(A);
fprintf("经过零均值规范化后:");
disp(B);
代码运行结果
原数据:
A =
78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571
经过零均值规范化后:
B =
-0.9054 0.6359 0.4645 0.7981
0.6047 -1.5877 -2.1932 0.3694
-0.5164 -1.3040 0.1474 -2.0783
-1.1113 0.7846 0.6846 -0.4569
1.6571 0.6478 0.6752 0.2348
-0.3791 0.4018 0.1521 0.5373
0.6504 0.4216 0.0693 0.5956
clear;clc;
%% 数据存入A
A=[78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];
B = zscore (A); % 沿每列计算标准差
fprintf("原数据:");
disp(A);
fprintf("经过零均值规范化后:");
disp(B);
1.3小数定标规范化
clear;clc;
%% 数据存入A
A = [78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];
mx = max(abs(A)); % 求每列绝对值最大的数mx
len = floor(log10(mx))+1; % 求mx的位数len
B = A ./ (10.^len); % 将A中每个元素除以10^len
fprintf("原数据:\n");
disp(A);
fprintf("经过小数定标规范化:\n");
disp(B);
代码运行结果
原数据:
A =
78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571
经过小数定标规范化后:
B =
0.0780 0.5210 0.6020 0.2863
0.1440 -0.6000 -0.5210 0.2245
0.0950 -0.4570 0.4680 -0.1283
0.0690 0.5960 0.6950 0.1054
0.1900 0.5270 0.6910 0.2051
0.1010 0.4030 0.4700 0.2487
0.1460 0.4130 0.4350 0.2571