郭卫东 发表于 2025-4-7 11:20:40

​主动化网络架构搜索(Neural Architecture Search,NAS)

NAS是一种旨在主动计划神经网络结构的技术。传统上,神经网络的架构计划依赖于专家的经验和大量的试错过程,而NAS通过算法主动搜索网络架构,以发现最得当特定任务的神经网络计划。
NAS的主要组成部门包括:

[*] 搜索空间:界说了所有大概的网络架构集合,包括大概的网络层、毗连方式、激活函数、卷积核巨细、池化层、跳跃毗连等。NAS的任务是从这个搜索空间中找到最佳的架构。
[*] 搜索战略:决定如安在搜索空间中探索不同的网络架构。常见的搜索战略包括强化学习、进化算法和贝叶斯优化等。比方,强化学习方法通过控制器模子天生候选网络架构,练习这些架构并用其性能来更新控制器。随机搜索,只管方法简单,但在某些场景下也能获得不错的结果,并且偶尔可作为基线比力。进化算法(Evolutionary Algorithms)通过对一组初始架构举行“突变”和“选择”,不断镌汰劣质架构并保留优秀结构,模拟自然选择的过程。
[*] 评估模子:对每个候选网络架构举行练习并评估其性能。评估的方式可以是完整练习大概利用代理模子和快速练习方法来估计其性能。
NAS的工作流程通常包括以下步骤:

[*] 界说搜索空间:确定所有大概的网络架构组成部门,如卷积层、全毗连层等。
[*] 应用搜索战略:利用特定的算法在搜索空间中探索不同的网络架构。
[*] 评估候选架构:练习并评估每个候选网络的性能。
[*] 选择最优架构:根据评估结果,选择在特定任务和数据集上体现最优的网络结构。
NAS的应用场景包括:


[*] 复杂任务:如图像分类、目标检测、自然语言处理等复杂任务,手工计划网络架构的难度较大,而NAS可以主动探索最优计划。
[*] 硬件限定:当有特定硬件限定(如移动设备上的推理时间、功耗)时,NAS可以根据这些束缚条件找到满意要求的网络架构。
[*] 模子优化:通过NAS,可以优化网络的结构来提拔模子的精度、减少推理时间、降低参数量等。
总之,主动化网络架构搜索(NAS)通过主动化的方式寻找最优的神经网络架构,减少了人工调参的时间和精力,并在某些情况下能够找到比手工计划更优的架构。
NAS举例

强化学习底子补充
核心概念:


[*]智能体(Agent):决策者(如NAS中的控制器)
[*]情况(Environment):问题域(如网络结构搜索空间)
[*]动作(Action):选择网络层类型、通道数等
[*]奖励(Reward):模子验证准确率
[*]战略(Policy):决定动作选择的规则
1. 搜索空间(Search Space)

界说所有大概的网络结构组合,比方:


[*]层类型 (卷积层、全毗连层等)
[*]毗连方式 (跳跃毗连、密集毗连)
[*]超参数 (通道数、核巨细)
search_space = {
    "layers": ["conv3x3", "conv5x5", "maxpool3x3"],# 层类型选项
    "channels": ,# 每层输出通道数选项
    "skip_connections": # 是否使用跳跃连接
}
计划原则:


[*]条理化:按阶段搜索(如NASNet的单元结构搜索)
[*]可扩展性:支持不同硬件束缚(如移动端摆设需小通道数)
2. 搜索战略(Search Strategy)
class Controller(nn.Module):
    def __init__(self, search_space):
      super().__init__()
      self.lstm = nn.LSTMCell(input_size=100, hidden_size=100)# 使用LSTM记忆历史选择
      self.fc_layer = nn.Linear(100, len(search_space["layers"]))# 输出层类型概率
      self.fc_channel = nn.Linear(100, len(search_space["channels"]))# 输出通道数概率

    def sample_arch(self):
      arch = []
      hx, cx = self.lstm.init_hidden()# 初始化LSTM状态
      for _ in range(3):# 生成3层结构
            lstm_out, (hx, cx) = self.lstm(torch.zeros(1, 100), (hx, cx))
            layer_probs = F.softmax(self.fc_layer(lstm_out))# 层类型概率分布
            channel_probs = F.softmax(self.fc_channel(lstm_out))# 通道数概率分布
            layer = np.random.choice(search_space["layers"], p=layer_probs.detach().numpy())
            channels = np.random.choice(search_space["channels"], p=channel_probs.detach().numpy())
            arch.append((layer, channels))
      return arch
代码注释:


[*]LSTM作用:记忆历史选择,避免天生冲突结构(如连续两个池化层)
[*]概率采样:通过softmax输出概率分布,实现结构随机探索
3. 性能评估优化
代理评估方法:
def evaluate_arch(arch_config):
    model = ChildNet(arch_config)
    # 使用早停策略:仅训练5个epoch
    optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
    for epoch in range(5):
      outputs = model(inputs)
      loss = criterion(outputs, labels)
      optimizer.zero_grad()
      loss.backward()
      optimizer.step()
    # 返回验证集准确率作为奖励
    return val_accuracy
优化本领:


[*]权重共享:多个子模子共享部门权重(如ENAS)
[*]低秩近似:用小模子预测大模子性能(OFA)
练习流程
# 初始化控制器和优化器
controller = Controller(search_space)
controller_optimizer = torch.optim.Adam(controller.parameters(), lr=0.001)

for episode in range(1000):
    # 1. 采样网络结构
    arch = controller.sample_arch()# 动作选择
    # 2. 评估性能(奖励)
    reward = evaluate_arch(arch)# 奖励获取
    # 3. 更新控制器(策略梯度)
    controller_optimizer.zero_grad()
    # 计算策略梯度损失:log(概率) * 奖励
    loss = -torch.log(torch.tensor(reward))# 负号表示梯度上升
    loss.backward()
    controller_optimizer.step()
关键点:


[*]战略梯度:通过最大化期望奖励更新控制器参数
[*]探索与利用:通过概率采样平衡新结构探索与已知优秀结构利用

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: ​主动化网络架构搜索(Neural Architecture Search,NAS)