IT评测·应用市场-qidao123.com

标题: 深度学习中的知识蒸馏 [打印本页]

作者: 嚴華 时间: 2025-2-18 17:08
标题: 深度学习中的知识蒸馏
知识蒸馏（Knowledge Distillation）是一种模型压缩技术，旨在将大型、复杂的模型（通常称为西席模型）的知识迁徙到小型、简单的模型（门生模型）中。通过这种方式，门生模型可以在保持较高性能的同时，显著减少计算资源和存储需求。
知识蒸馏广泛用于深度学习领域，尤其在计算资源有限的场景（如移动端设备、嵌入式设备）中，用于加速推理、减少存储本钱，同时尽可能保持模型性能。

核心思想

知识蒸馏的核心思想是利用西席模型的输出（通常是软标签，即概率分布）来引导门生模型的训练。与传统的监督学习差别，知识蒸馏不仅使用真实标签（硬标签），还利用西席模型生成的软标签来通报更多的信息。
通过这种方式，门生模型不仅学习到数据的类别信息，还能够捕获到类别之间的相似性和关系，从而提拔其泛化本领。
步骤

训练西席模型
首先，训练一个大型、复杂的西席模型，使其在目标任务上到达较高的性能。
西席模型可以是任何高性能的深度学习模型，如深层神经网络、Transformer等。
生成软标签
使用西席模型对训练数据举行推理，生成软标签（即概率分布）。
训练门生模型
门生模型在训练时，不仅使用真实标签，还使用西席模型生成的软标签作为额外的监督信号。
优化与调解
通过调解温度参数、损失函数权重等超参数，优化门生模型的性能，使其尽可能接近西席模型。

知识蒸馏的核心在于让门生模型不仅仅学习真实标签，还学习西席模型提供的软标签，即西席模型输出的概率分布。这种方式可以让门生模型获得更丰富的信息。
传统神经网络的交叉熵损失

在传统的神经网络训练中，我们通常用交叉熵损失（Cross-Entropy Loss）来训练分类模型：

其中：

是真实类别的独热编码。
是模型的预测概率，通常由 Softmax 变换得到。

其中

是模型最后一层的 logit 值。

传统的交叉熵损失函数仅利用了数据的硬标签（hard labels），即

仅在真实类别处为 1，其他类别为 0，导致模型无法学习类别之间的相似性信息。
知识蒸馏的损失函数

在知识蒸馏中，西席模型提供了一种软标签（soft targets），即对全部类别的预测分布，而不仅仅是单个类别。
这些软标签由温度化 Softmax 得到。

其中：

其中， Zi是第i类的未归一化分数（logits），T是温度系数， qi是颠末温度调解后的概率。
较高的 T 值会使得概率分布更加平滑，保存更多类别之间的关系信息，从而提供更丰富的知识给门生模型。

在训练门生模型时，通常使用两部分损失函数：

硬标签损失（传统的交叉熵损失）
用于确保门生模型能够精确分类。

2.软标签损失（基于 Kullback-Leibler 散度的损失）
用于让门生模型学习西席模型的类别间关系。

其中，

是一个超参数，用于控制硬标签损失和软标签损失的相对重要性。
通过加权组合这两部分损失，可以平衡门生模型对硬标签和软标签的学习。

知识蒸馏的优势

模型压缩：门生模型通常比西席模型小得多，得当在资源受限的设备上部署。
性能保持：通过知识蒸馏，门生模型能够在保持较高性能的同时，显著减少计算资源和存储需求。
泛化本领：软标签提供了更多的信息，有助于门生模型更好地泛化。

知识蒸馏的变种

除了标准的知识蒸馏方法，研究职员还提出了多个改进版本。

自蒸馏（Self-Distillation）：模型自身作为西席，将深层网络的知识蒸馏到浅层部分。
多西席蒸馏（Multi-Teacher Distillation）：多个西席模型团结引导门生模型，融合差别西席的知识。
在线蒸馏（Online Distillation）：西席模型和门生模型同步训练，而不是先训练西席模型再训练门生模型。

案例分享

下面是一个完整的知识蒸馏的示例代码，使用 PyTorch 训练一个西席模型并将其知识蒸馏到门生模型。
这里，我们采用 MNIST 数据集，西席模型使用一个较大的神经网络，而门生模型是一个较小的神经网络。
首先，定义西席模型和门生模型。

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import matplotlib.pyplot as plt
# 教师模型（较大的神经网络）
class TeacherModel(nn.Module):
def __init__(self):
super(TeacherModel, self).__init__()
self.fc1 = nn.Linear(28 * 28, 512)
self.fc2 = nn.Linear(512, 256)
self.fc3 = nn.Linear(256, 10)
def forward(self, x):
x = x.view(-1, 28 * 28)
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
x = self.fc3(x) # 注意这里没有 Softmax
return x
# 学生模型（较小的神经网络）
class StudentModel(nn.Module):
def __init__(self):
super(StudentModel, self).__init__()
self.fc1 = nn.Linear(28 * 28, 128)
self.fc2 = nn.Linear(128, 10)
def forward(self, x):
x = x.view(-1, 28 * 28)
x = F.relu(self.fc1(x))
x = self.fc2(x) # 注意这里没有 Softmax
return x

复制代码

# 数据预处理
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])
# 加载 MNIST 数据集
train_dataset = datasets.MNIST(root="./data", train=True, download=True, transform=transform)
test_dataset = datasets.MNIST(root="./data", train=False, download=True, transform=transform)
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=1000, shuffle=False)

复制代码

训练西席模型

def train_teacher(model, train_loader, epochs=5, lr=0.001):
optimizer = optim.Adam(model.parameters(), lr=lr)
criterion = nn.CrossEntropyLoss()
for epoch in range(epochs):
model.train()
total_loss = 0
for images, labels in train_loader:
optimizer.zero_grad()
output = model(images)
loss = criterion(output, labels)
loss.backward()
optimizer.step()
total_loss += loss.item()
print(f"Epoch [{epoch+1}/{epochs}], Loss: {total_loss / len(train_loader):.4f}")
# 初始化并训练教师模型
teacher_model = TeacherModel()
train_teacher(teacher_model, train_loader)

复制代码

知识蒸馏训练门生模型

def distillation_loss(student_logits, teacher_logits, labels, T=3.0, alpha=0.5):
"""
计算蒸馏损失，结合知识蒸馏损失和交叉熵损失
"""
soft_targets = F.softmax(teacher_logits / T, dim=1) # 教师模型的软标签
soft_predictions = F.log_softmax(student_logits / T, dim=1) # 学生模型的预测
distillation_loss = F.kl_div(soft_predictions, soft_targets, reduction="batchmean") * (T ** 2)
ce_loss = F.cross_entropy(student_logits, labels)
return alpha * ce_loss + (1 - alpha) * distillation_loss
def train_student_with_distillation(student_model, teacher_model, train_loader, epochs=5, lr=0.001, T=3.0, alpha=0.5):
optimizer = optim.Adam(student_model.parameters(), lr=lr)
teacher_model.eval() # 设定教师模型为评估模式
for epoch in range(epochs):
student_model.train()
total_loss = 0
for images, labels in train_loader:
optimizer.zero_grad()
student_logits = student_model(images)
with torch.no_grad():
teacher_logits = teacher_model(images) # 获取教师模型输出
loss = distillation_loss(student_logits, teacher_logits, labels, T=T, alpha=alpha)
loss.backward()
optimizer.step()
total_loss += loss.item()
print(f"Epoch [{epoch+1}/{epochs}], Loss: {total_loss / len(train_loader):.4f}")
# 初始化学生模型
student_model = StudentModel()
train_student_with_distillation(student_model, teacher_model, train_loader)

复制代码

评估模型

def evaluate(model, test_loader):
model.eval()
correct = 0
total = 0
with torch.no_grad():
for images, labels in test_loader:
outputs = model(images)
_, predicted = torch.max(outputs, 1)
correct += (predicted == labels).sum().item()
total += labels.size(0)
accuracy = 100 * correct / total
return accuracy
# 评估教师模型
teacher_acc = evaluate(teacher_model, test_loader)
print(f"教师模型准确率: {teacher_acc:.2f}%")
# 评估知识蒸馏训练的学生模型
student_acc_distilled = evaluate(student_model, test_loader)
print(f"知识蒸馏训练的学生模型准确率: {student_acc_distilled:.2f}%")

复制代码

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/)