兜兜零元 发表于 2024-11-12 13:48:39

基础归一化方法 数学理论及其matlab代码

归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。在多种计算中都常常用到这种方法。以下是常见的基础归一化方法:Min-Max 归一化,Z-Score 归一化、小数定标归一化、最大值归一化、向量归一化、Log10与自然对数归一化。
基础归一化方法

一、Min-Max 归一化(最小-最大缩放)



[*]界说:Min-Max 归一化是将数据线性映射到 范围内。
[*]公式:
https://latex.csdn.net/eq?Y%3D%5Cfrac%7BX-Min%28X_n%29%29%7D%7BMax%28X_n%29-Min%28X_n%29%7D

其中,https://latex.csdn.net/eq?X_n代表归一化前的数据聚集,https://latex.csdn.net/eq?Max%28%29和https://latex.csdn.net/eq?Min%28%29代表求聚集的最大与最小值,https://latex.csdn.net/eq?X和https://latex.csdn.net/eq?Y代表归一化前后的对应点值,下同。
 
MATLAB代码示例
% 假设我们有一个数据矩阵X,其中每行代表一个样本,每列代表一个特征
X = ;

% 计算每列的最小值和最大值
minX = min(X);
maxX = max(X);

% 使用Min-Max归一化公式进行归一化
% 归一化公式为:(X - minX) ./ (maxX - minX)
X_normalized = (X - minX) ./ (maxX - minX);

% 显示归一化后的数据
disp('归一化后的数据:');
disp(X_normalized);
优点:


[*]保持数据间的比例关系,简单易行,适合有固定上下界的数据场景。
[*]统一尺度,通过将数据缩放到固定范围,有助于比力差别特性的尺度。
[*]保留分布外形,这种方法不会改变数据的分布外形,只是简单地压缩或拉伸到新的范围。
缺点:


[*]对极端值(outliers)敏感,如果数据中存在极端值,全部数据都可能被压缩到很小的区间。即当数据集中的最大值和最小值不稳定时,归一化结果也会不稳定。
二、Z-Score 归一化(尺度化)



[*]界说:Z-Score 归一化通过减去均值再除以尺度差,使得数据呈尺度正态分布,均值为 0,尺度差为 1。
[*]公式:
https://latex.csdn.net/eq?Y%3D%5Csigma%20*X-%5Cmu
其中,https://latex.csdn.net/eq?%5Csigma代表尺度差,https://latex.csdn.net/eq?%5Cmu代表均值。

代码
%%利用官方接口函数
% 假设你有一个数据矩阵X
X = ;

% 使用zscore函数进行标准化
Z = zscore(X);

% 显示标准化后的数据
disp(Z);


%%或直接手搓

% 假设你有一个数据矩阵X,其中每行代表一个样本,每列代表一个特征
X = ;

% 计算每列的均值和标准差
mu = mean(X);
sigma = std(X);

% 使用z-score公式进行归一化
% Z = (X - mu) ./ sigma;
% 这里我们需要对矩阵的每一列进行操作,所以使用bsxfun函数或者矩阵的广播功能
Z = bsxfun(@minus, X, mu);
Z = bsxfun(@rdivide, Z, sigma);

% 或者,在MATLAB的新版本中,你可以直接使用矩阵的广播功能
% Z = (X - mu) ./ sigma;

% 显示归一化后的数据
disp(Z);

[*] 优点:

[*]不受极端值的影响,适合处理具有正态分布的数据。
[*]减少非常值影响,与Min-Max归一化相比,Z-Score归一化受到非常值的影响较小,因为它思量了整个数据的分布。
[*]尺度化分布,将数据转换为尺度正态分布,使得差别的特性具有相同的尺度。
[*]易于比力,在Z-Score归一化后,数据点的值可以直接解释为距离均值的尺度差数量。

[*] 缺点:

[*]如果数据分布不是高斯分布,效果可能较差。
[*]不能保证数据范围在 之间。

三、最大值归一化



[*]界说:最大值归一化是将数据除以它的绝对最大值,使数据的范围归一化到 [-1, 1] 之间。
[*]公式:
https://latex.csdn.net/eq?Y%3D%5Cfrac%7BX%7D%7BMax%28%7CX_n%7C%29%7D 
优点:


[*]简单快速,适合在数据分布中心为零时使用。
缺点:


[*]仍然对极端值敏感。
四、小数定标归一化(Decimal Scaling Normalization)



[*] 界说:小数定标归一化通过将数据除以一个 10 的整数次幂,使归一化后的数据范围在 [-1, 1] 之间。
公式:
https://latex.csdn.net/eq?Y%3D%5Cfrac%7BX%7D%7B10%5Ej%7D
其中,j为人工设定的自然数
优点:


[*]适合当数据范围比力固定且易于计算时使用。
五、向量归一化



[*]界说:向量归一化通常用于将向量的模长尺度化,使整个向量的长度为 1。常用于文本处理、图像处理等范畴。
[*]公式:
向量归一化值=∥x∥x​


[*] 优点:

[*]在处理向量(如图像、文本等)的任务中非常有效,可以消除向量长度差别带来的影响。

六、Log10与自然对数归一化

界说
Log10:Log10归一化是教唆用以10为底的对数函数对原始数据举行转换。这种方法特别适用于数据范围非常大、分布不均匀大概存在极端值的情况,因为对数函数可以有效地缩小数据的范围,同时保留数据的相对大小关系。常见的应用涉及到地动等级评估与声音的分贝。
自然对数归一化:自然对数归一化则是使用自然对数(以e为底的对数)对原始数据举行转换。自然对数在很多科学和工程范畴都有广泛的应用,特别是在处理指数增长或衰减的数据时。
公式:
Log10:
https://latex.csdn.net/eq?Y%3Dlog_%7B10%7DX
自然数对数:
https://latex.csdn.net/eq?Y%3Dlog_%7Be%7DX%3DlnX

优点:


[*]可以处理非常大的数值,将其转换为较小的范围。
[*]对于存在极端值的数据集,对数归一化可以或许减少这些极端值对模型的影响。
[*]保留了数据的相对大小关系,即较大的数在对数转换后仍然较大。其中:在某些数学和统计模型中,自然对数具有更简洁的情势和更好的数学性质,如正态分布的对数变换后仍然保持正态分布。



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 基础归一化方法 数学理论及其matlab代码