机器学习实战-支持向量机 - qidao123.com技术社区-IT企服评测·应用市场

from numpy import *
import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib.patches import Circle
def loadDataSet(fileName):
dataMat=[];labelMat=[]#数据集以及标签集分开存储
fr=open(fileName)
for line in fr.readlines():#读取文件的每一行数据
lineArr=line.strip().split('\t')#每个数据以空格分开
dataMat.append([float(lineArr[0]),float(lineArr[1])])#将每一行的第一个数据和第二个数据存放在数据集中
labelMat.append(float(lineArr[2]))#每一行的第三个数据存放在标签集中
return dataMat,labelMat
#alpha的选取，随机选择一个不等于i值得j
def selectJrand(i,m):#i的值就是当前选定的alpha的值
j=i
while(j==i):
j=int(random.uniform(0,m))
return j
#进行剪辑
def clipAlpha(aj,H,L):
if aj>H:
aj=H
if L>aj:
aj=L
return aj
#dataMatIn就是之前讲的公式里的x,classLabels就是之前公式里的y
#toler误差值达到多少时可以停止，maxIter迭代次数达到多少是可以停止
def smoSimple(dataMatIn,classLabels,C,toler,maxIter):
dataMatrix=mat(dataMatIn);labelMat=mat(classLabels).transpose()
#初始化b为0
b=0
#获取数据维度
m,n=shape(dataMatrix)
#初始化所有alpha为0
alphas=mat(zeros((m,1)))
iter=0
#迭代求解
while(iter<maxIter):
alphaPairsChanged=0
for i in range(m):
#计算g(xi)
gXi= float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[i,:].T))+b
#计算Ei
Ei=gXi-float(labelMat[i])
if((labelMat[i]*Ei<-toler) and (alphas[i]<C)) or ((labelMat[i]*Ei>toler) and (alphas[i]>0)):
#随机选择一个待优化的alpha(先随机出alpha下标)
j=selectJrand(i,m)
#计算g(xj)
gXj = float(multiply(alphas, labelMat).T * (dataMatrix * dataMatrix[j, :].T)) + b
#计算Ej
Ej = gXj - float(labelMat[j])
#把原来的恶alpha的值复制一份，作为old的值
alphaIold=alphas[i].copy();alpaJold=alphas[j].copy()
#计算上下界
if(labelMat[i]!=labelMat[j]):
L=max(0,alphas[j]-alphas[i])
H=min(C,C+alphas[j]-alphas[i])
else:
L=max(0,alphas[j]+alphas[i]-C)
H=min(C,alphas[j]-alphas[i])
if L==H:
print("L==H")
continue
#计算eta:在公式里就是计算K11+K22-2K12,但是这里算的负的eta
eta=2*dataMatrix[i,:]*dataMatrix[j,:].T-dataMatrix[i,:]*dataMatrix[i,:].T-dataMatrix[j,:]*dataMatrix[j,:].T
if eta>=0:
print("eta>=0")
continue
#计算alpha[j],为了和公式对应把j看出2
alphas[j]-=labelMat[j]*(Ei-Ej)/eta
#剪辑alphas[j],为了和公式对应把j看成2
alphas[j]=clipAlpha(alphas[j],H,L)
if(abs(alphas[j]-alpaJold)<0.00001):
print("j not moving enough")
continue
#计算alphas[i],为了和公式对应把i看成1
alphas[i] += labelMat[i]*labelMat[j]*(alpaJold-alphas[j])
#计算b1
b1=-Ei-labelMat[i]*(dataMatrix[i,:]*dataMatrix[i,:].T)*(alphas[i]-alphaIold)-labelMat[j]*(dataMatrix[j,:]*dataMatrix[i,:].T)*(alphas[j]-alpaJold)+b
#计算b2
b2=-Ej-labelMat[i]*(dataMatrix[i,:]*dataMatrix[j,:].T)*(alphas[i]-alphaIold)-labelMat[j]*(dataMatrix[j,:]*dataMatrix[j,:].T)*(alphas[j]-alpaJold)+b
#求解b
if(0<alphas[i]) and (C>alphas[j]):
b = b1
elif (0<alphas[j]) and (C>alphas[j]):
b = b2
else:
b=(b1+b2)/2.0
alphaPairsChanged+=1
print("iter:%d i:%d,pairs changed %d" %(iter,i,alphaPairsChanged))
if(alphaPairsChanged==0):
iter+=1
else:
iter=0
print("iteration number:%d" %iter)
return b,alphas
#计算w的值
def calcWs(dataMat, labelMat, alphas):
X=mat(dataMat);labelMat=mat(labelMat).transpose()
m,n=shape(X)
#初始化w都为1
w=zeros((n,1))
#循环计算
for i in range(m):
w+=multiply(alphas[i]*labelMat[i],X[i,:].T)
return w
#画图
def showClassifer(dataMat, labelMat, b,alphas,w):
fig=plt.figure()
ax=fig.add_subplot(111)
cm_dark=mpl.colors.ListedColormap(['g','r'])
ax.scatter(array(dataMat)[:,0],array(dataMat)[:,1],c=array(labelMat).squeeze(),cmap=cm_dark,s=30)
#画决策平面
x=arange(-2.0,12.0,0.1)
y=(-w[0]*x-b)/w[1]
ax.plot(x,y.reshape(-1,1))
ax.axis([-2,12,-8,6])
#画支持向量
alphas_non_zeros_index=where(alphas>0)
for i in alphas_non_zeros_index[0]:
circle= Circle((dataMat[i][0],dataMat[i][1]),0.2,facecolor='none',edgecolor=(0,0.8,0.8),linewidth=3,alpha=0.5)
ax.add_patch(circle)
plt.show()
if __name__ == '__main__':
dataMat, labelMat = loadDataSet('testSet.txt')
b,alphas=smoSimple(dataMat,labelMat,0.6,0.001,40)
w = calcWs(dataMat, labelMat, alphas)
showClassifer(dataMat, labelMat, b,alphas,w)

复制代码

from numpy import *
import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib.patches import Circle
class optStruct:
"""
数据结构，维护所有需要操作的值
Parameters：
dataMatIn - 数据矩阵
classLabels - 数据标签
C - 松弛变量
toler - 容错率
"""
def __init__(self, dataMatIn, classLabels, C, toler, kTup):
self.X = dataMatIn #数据矩阵
self.labelMat = classLabels #数据标签
self.C = C #松弛变量
self.tol = toler #容错率
self.m = shape(dataMatIn)[0] #数据矩阵行数
self.alphas = mat(zeros((self.m,1))) #根据矩阵行数初始化alpha参数为0
self.b = 0 #初始化b参数为0
self.eCache = mat(zeros((self.m,2))) #根据矩阵行数初始化虎误差缓存，第一列为是否有效的标志位，第二列为实际的误差E的值。
self.K = mat(zeros((self.m, self.m))) # 初始化核K
for i in range(self.m): # 计算所有数据的核K
self.K[:, i] = kernelTrans(self.X, self.X[i, :], kTup)
def loadDataSet(fileName):
dataMat=[];labelMat=[]#数据集以及标签集分开存储
fr=open(fileName)
for line in fr.readlines():#读取文件的每一行数据
lineArr=line.strip().split('\t')#每个数据以空格分开
dataMat.append([float(lineArr[0]),float(lineArr[1])])#将每一行的第一个数据和第二个数据存放在数据集中
labelMat.append(float(lineArr[2]))#每一行的第三个数据存放在标签集中
return dataMat,labelMat
def calcEk(oS, k):
"""
计算误差
Parameters：
oS - 数据结构
k - 标号为k的数据
Returns:
Ek - 标号为k的数据误差
"""
fXk = float(multiply(oS.alphas, oS.labelMat).T * oS.K[:, k] + oS.b)
Ek = fXk - float(oS.labelMat[k])
return Ek
def selectJ(i, oS, Ei):
"""
内循环启发方式2
Parameters：
i - 标号为i的数据的索引值
oS - 数据结构
Ei - 标号为i的数据误差
Returns:
j, maxK - 标号为j或maxK的数据的索引值
Ej - 标号为j的数据误差
"""
maxK = -1; maxDeltaE = 0; Ej = 0 #初始化
oS.eCache[i] = [1,Ei] #设为有效 #根据Ei更新误差缓存
validEcacheList = nonzero(oS.eCache[:,0].A)[0] #返回误差不为0的数据的索引值
if (len(validEcacheList)) > 1: #有不为0的误差
for k in validEcacheList: #迭代所有有效的缓存，找到误差最大的E
if k == i: continue #不计算i,浪费时间
Ek = calcEk(oS, k) #计算Ek
deltaE = abs(Ei - Ek) #计算|Ei-Ek|
if (deltaE > maxDeltaE): #找到maxDeltaE
maxK = k; maxDeltaE = deltaE; Ej = Ek
return maxK, Ej #返回maxK,Ej
else: #没有不为0的误差
j = selectJrand(i, oS.m) #随机选择alpha_j的索引值
Ej = calcEk(oS, j) #计算Ej
return j, Ej
#跟新缓存
def updateEk(oS, k):
"""
计算Ek,并更新误差缓存
Parameters：
oS - 数据结构
k - 标号为k的数据的索引值
Returns:
无
"""
Ek = calcEk(oS, k) #计算Ek
oS.eCache[k] = [1,Ek] #更新误差缓存
def innerL(i,oS):
"""
优化的SMO算法
Parameters：
i - 标号为i的数据的索引值
oS - 数据结构
Returns:
1 - 有任意一对alpha值发生变化
0 - 没有任意一对alpha值发生变化或变化太小
"""
# 步骤1：计算误差Ei
Ei = calcEk(oS, i)
# 优化alpha,设定一定的容错率。
if ((oS.labelMat[i] * Ei < -oS.tol) and (oS.alphas[i] < oS.C)) or (
(oS.labelMat[i] * Ei > oS.tol) and (oS.alphas[i] > 0)):
# 使用内循环启发方式2选择alpha_j,并计算Ej
j, Ej = selectJ(i, oS, Ei)
# 保存更新前的aplpha值，使用深拷贝
alphaIold = oS.alphas[i].copy()
alphaJold = oS.alphas[j].copy()
# 步骤2：计算上下界L和H
if (oS.labelMat[i] != oS.labelMat[j]):
L = max(0, oS.alphas[j] - oS.alphas[i])
H = min(oS.C, oS.C + oS.alphas[j] - oS.alphas[i])
else:
L = max(0, oS.alphas[j] + oS.alphas[i] - oS.C)
H = min(oS.C, oS.alphas[j] + oS.alphas[i])
if L == H:
print("L==H")
return 0
# 步骤3：计算eta
eta = 2.0 * oS.K[i, j] - oS.K[i, i] - oS.K[j, j]
if eta >= 0:
print("eta>=0")
return 0
# 步骤4：更新alpha_j
oS.alphas[j] -= oS.labelMat[j] * (Ei - Ej) / eta
# 步骤5：修剪alpha_j
oS.alphas[j] = clipAlpha(oS.alphas[j], H, L)
# 更新Ej至误差缓存
updateEk(oS, j)
if (abs(oS.alphas[j] - alphaJold) < 0.00001):
print("alpha_j变化太小")
return 0
# 步骤6：更新alpha_i
oS.alphas[i] += oS.labelMat[j] * oS.labelMat[i] * (alphaJold - oS.alphas[j])
# 更新Ei至误差缓存
updateEk(oS, i)
# 步骤7：更新b_1和b_2
b1 = oS.b - Ei - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.K[i, i] - oS.labelMat[j] * (
oS.alphas[j] - alphaJold) * oS.K[i, j]
b2 = oS.b - Ej - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.K[i, j] - oS.labelMat[j] * (
oS.alphas[j] - alphaJold) * oS.K[j, j]
# 步骤8：根据b_1和b_2更新b
if (0 < oS.alphas[i]) and (oS.C > oS.alphas[i]):
oS.b = b1
elif (0 < oS.alphas[j]) and (oS.C > oS.alphas[j]):
oS.b = b2
else:
oS.b = (b1 + b2) / 2.0
return 1
else:
return 0
#alpha的选取，随机选择一个不等于i值得j
def selectJrand(i,m):#i的值就是当前选定的alpha的值
j=i
while(j==i):
j=int(random.uniform(0,m))
return j
#进行剪辑
# aj - alpha值
# H - alpha上限
# L - alpha下限
def clipAlpha(aj,H,L):
if aj>H:
aj=H
if L>aj:
aj=L
return aj
#dataMatIn就是之前讲的公式里的x,classLabels就是之前公式里的y
#toler误差值达到多少时可以停止，maxIter迭代次数达到多少是可以停止
def smoSimple(dataMatIn,classLabels,C,toler,maxIter,kTup = ('lin',0)):
"""
完整的线性SMO算法
Parameters：
dataMatIn - 数据矩阵
classLabels - 数据标签
C - 松弛变量
toler - 容错率
maxIter - 最大迭代次数
kTup - 包含核函数信息的元组
Returns:
oS.b - SMO算法计算的b
oS.alphas - SMO算法计算的alphas
"""
oS = optStruct(mat(dataMatIn), mat(classLabels).transpose(), C, toler, kTup) #初始化数据结构iter = 0 # 初始化当前迭代次数
iter=0
entireSet = True
alphaPairsChanged = 0
while (iter < maxIter) and ((alphaPairsChanged > 0) or (entireSet)): # 遍历整个数据集都alpha也没有更新或者超过最大迭代次数,则退出循环
alphaPairsChanged = 0
if entireSet: # 遍历整个数据集
for i in range(oS.m):
alphaPairsChanged += innerL(i, oS) # 使用优化的SMO算法
print("全样本遍历:第%d次迭代样本:%d, alpha优化次数:%d" % (iter, i, alphaPairsChanged))
iter += 1
else: # 遍历非边界值
nonBoundIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < C))[0] # 遍历不在边界0和C的alpha
for i in nonBoundIs:
alphaPairsChanged += innerL(i, oS)
print("非边界遍历:第%d次迭代样本:%d, alpha优化次数:%d" % (iter, i, alphaPairsChanged))
iter += 1
if entireSet: # 遍历一次后改为非边界遍历
entireSet = False
elif (alphaPairsChanged == 0): # 如果alpha没有更新,计算全样本遍历
entireSet = True
print("迭代次数: %d" % iter)
return oS.b, oS.alphas
#计算w的值
def calcWs(dataMat, labelMat, alphas):
X=mat(dataMat);labelMat=mat(labelMat).transpose()
m,n=shape(X)
#初始化w都为1
w=zeros((n,1))
#循环计算
for i in range(m):
w+=multiply(alphas[i]*labelMat[i],X[i,:].T)
return w
#核函数
def kernelTrans(X,A,kTup):
m,n=shape(X)
K=mat(zeros((m,1)))
if kTup[0]=='lin':#线性核
K=X*A.T
elif kTup[0] == 'rbf':#高斯核
for j in range(m):
deltaRow = X[j,:]-A
K[j]=deltaRow*deltaRow.T
K = exp(K/(-2*kTup[1]**2))
else:
raise NameError("Houston we Have a Problem--\ That Kernel is not recognized")
return K
#画图
def showClassifer(dataMat, labelMat, b,alphas,w):
fig=plt.figure()
ax=fig.add_subplot(111)
cm_dark=mpl.colors.ListedColormap(['g','r'])
ax.scatter(array(dataMat)[:,0],array(dataMat)[:,1],c=array(labelMat).squeeze(),cmap=cm_dark,s=30)
#画决策平面
# x=arange(-2.0,12.0,0.1)
# y=(-w[0]*x-b)/w[1]
# ax.plot(x,y.reshape(-1,1))
# ax.axis([-2,12,-8,6])
#画支持向量
alphas_non_zeros_index=where(alphas>0)
for i in alphas_non_zeros_index[0]:
circle= Circle((dataMat[i][0],dataMat[i][1]),0.03,facecolor='none',edgecolor=(0,0.8,0.8),linewidth=3,alpha=0.5)
ax.add_patch(circle)
plt.show()
if __name__ == '__main__':
dataMat, labelMat = loadDataSet('testSetRBF.txt')
b,alphas=smoSimple(dataMat,labelMat,0.6,0.001,40)
w = calcWs(dataMat, labelMat, alphas)
showClassifer(dataMat, labelMat, b,alphas,w)

复制代码