这篇论文讨论了数据分布不平衡对分类器性能造成的影响,并提出了一种新的有效解决方案 - 自动学习框架ALIS。
1、数据分布不平衡会影响分类器的学习性能。现有的方法重要会合在过采样少数类或欠采样多数类,但往往只接纳单一的采样技术,无法有效解决严峻的种别不平衡题目。
2、论文提出了ALIS框架,它通过交替进行重要多数类实例选择和有代价少数类实例生成,使得两种采样策略相互影响和改善。
3、ALIS可以在保持采样平衡的同时,选择出更有代价的多数类实例和生成更有代表性的少数类实例,从而大幅提高分类器的性能。
传统方法缺点:
基于采样的技术一直是通过增加少数类实例(过采样)或减少多数类实例(欠采样)来缓解不平衡题目的一种直接而简单的方法。
基于混淆采样同时利用欠采样和过采样的连合方法。虽然混淆抽样方法同时利用了这两种抽样策略,但它们仍然或多或少地存在着这两种抽样策略分开执行的缺点。
集成学习和代价敏感学习也被用来提高非平衡数据分类器的性能。但集成方法的题目是如何生成准确的集成分量并设计适当的融合函数来组合弱分类器。同样,即使借助领域知识,手动调整本钱敏感型学习方法的本钱参数也是昂贵的。
一、ALIS算法重要头脑
对于自动学习的每次迭代,都做两件事:①、挑选重要的多数类实例;②、生成信息丰富的少数类实例。
基于此,自动学习可以或许在每个学习阶段产生平衡的训练集!
1.1、挑选重要的多数类实例(欠采样过程)
这个新的自动选择准则捕捉了选定多数类实例的以下两个统计特征:
(1) 一阶统计信息:选定多数类实例到当前决策边界的平均距离。这反映了这些实例与边界的相关性水平。
(2) 二阶统计信息:选定多数类实例到当前决策边界的距离方差。这反映了这些实例的多样性水平。
当这些多数类实例与决策边界的距离差异较小时,意味着这些实例分布比较会合,缺乏多样性。距离方差就会较小。
相反,假如这些多数类实例与决策边界的距离差异较大,意味着它们分布较为分散,体现了较高的多样性。距离方差就会较大。
1.2、生成信息丰富的少数类实例(过采样过程)
与之前简单的过采样方法相比,ALIS通过选择重要的边界实例、计算它们的重要性权重,并接纳核密度估计来生成新样本,可以生成更加贴近决策边界、分布更加多样化的少数类合成实例。
二、ALIS基本框架
Pactive 表示自动学习少数类样本个数,Nactive表示自动学习多数类样本个数,此中数字上标j为自动学习的第j次迭代过程
j = 0时,代表初始值,即初始时的训练集由两部分组成:①所有少数类样本(有P个);②随机挑选P个多数类样本(随机欠采样过程)
之后的第j次迭代,进行ALIS算法的重要过采样(生成Pj active个少数类样本)和重要欠采样(从剩余的多数类实例池 Nj-1 pool 中选择重要的多数类实例 Nj active)
当训练集在一连两轮的预测性能差异小于阈值时,自动学习过程停止。终极分类器由原始少数类实例 P、初始随机选择的多数类实例 N0 active、过采样的少数类实例 Pactive 和欠采样的多数类实例 Nactive 组成。
1、重要欠采样
ALIS实验选择边界周围的重要多数实例。为了实现这一点,它思量了这些实例的布局信息,比方它们的第一和第二统计信息。
详细步骤:
将距离当前边界最近的m个实例(实验中m取3)作为初始候选集Nj0_active
在每次迭代中,从池中选择最靠近边界的t个额外实例(遵循自动学习策略,在实验中将t设置为2),并将其添加到Njk active中。
对于每一次迭代都要计算其边沿分布率ratio j k的值,可以由如下公式计算。其值越小,表示距离平均值小,距离方差大。前者有利于不确定实例的选择,因为它们靠近边界。后者有助于选择不同的实例,因为它们是相互分散的
因此,假如ratiojk+1 > ratiojk,则选择信息负点的过程结束,此中Nj_active = Njk_active。
2、重要过采样
①识别有代价的边界少数类实例(采样种子):
那些少数类实例的k个最近邻里包含多数类实例,被认为处于边界区域。这些边界少数类实例被选为有代价的集合,记作Pinfo。
②给采样种子分配重要性权重:
对于Pinfo中的每个实例xi,根据它的k个最近邻的分布,给它分配一个权重值ξi。权重ξi计算为xi的k个最近邻中多数类实例的比例。
③利用核密度估计生成新的少数类实例:
利用一个核密度函数Gi(x)来捕捉有代价少数类实例(xi ∈ Pinfo)的分布。核密度函数是一个以xi为中央、带宽为hi的高斯分布。团体概率密度函数p(x)被估计为各个高斯核函数的加权和,权重为ξi。
④通过从估计的概率密度函数p(x)中采样,可以生成新的少数类实例。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |