马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
目次
1. Anytime Neural Architecture Search On TabuLar Data(6663)
2. Archlock: Locking DNN Transferability At The Architecture Level With A Zero-Cost Bi-Nary Predictor(683)
3.Composing Recurrent Spiking Neural Networks Using Locally-Recurrent Motifs And Risk-Mitigating Architectural Optimization(6555)
4.Curriculum Reinforcement Learning For Quantum Architecture Search Under Hard-Ware Errors(665)
5.Defying Multi-Model Forgetting: Orthogo-Nal Gradient Learning To One-Shot Neural Architecture Search (555)
6.Differentiable Tree Search In Latent State Space(566)
7.Differential Model Scaling Using Differential Topk(6653) LLM
8.DiffusionNAG: Predictor-Guided Neural Archi-Tecture Generation With Diffusion Models(566) VLM
9.Encodings For Prediction-Based Neural Architecture Search(863)
10.Fast Neural Architecture Search With Random Neural Tangent Kernel (636)
11.Gradient-Free Proxy For Efficient Language Model Search (8553) NLP
12.Graph Is All You Need? Lightweight Data-Agnostic Neural Architecture Search Without Training(536)
13.Interleaving Multi-Task Neural Architecture Search(336)
14.LayerNAS: Neural Architecture Search In Polynomial Complexity(585)
15.Lightweight Graph Neural Network Search With Graph Sparsification(583)
16. LLM Performance Predictors Are Good Initializers For Architecture Search (6653) LLM
17. Masked Distillation Advances Self-Supervised Transformer Architecture Search(668)
18.Mixture-Of-Supernets: Improving Weight-Sharing Supernet Training With Architecture-Routed Mixture-Of-Experts(5553)
19. Neural Architecture Retrieval(688)
20.Neural Fine-Tuning Search For Few-Shot Learning(886)
21.Neural Neighborhood Search For Multi-Agent Path Finding(663)
22.Quantum Architecture Search With Unsupervised Representation Learning(555)
23. Robust NAS Benchmark Under Adversarial Training: Assessment, Theory, And Beyond(666)
24.Robustifying And Boosting Training-Free Neural Architecture Search(583)
25.Search: A Self-Evolving Framework For Network Architecture Optimization(535)
26.Structural Pruning Of Pre-Trained Language Models Via Neural Architecture Search(653)
27.Swap-NAS: Sample-Wise Activation Patterns For Ultra-Fast NAS(686)
28.Tafs: Task-Aware Activation Function Search For Graph Neural Networks(555)
29.Towards Neural Architecture Search Through Hierarchical Generative Modeling(6553)
1. Anytime Neural Architecture Search On TabuLar Data(6663)
Aim:
| 本论文的目的是解决表格数据分析中的一个增长需求,即从手动架构设计过渡到神经架构搜索(NAS)。这种过渡需要一种高效且灵活的即时NAS方法,可以大概在任何给定的时间预算内返回当前最优架构,并随着预算增长逐渐进步架构质量。然而,针对表格数据的即时NAS研究领域尚未被探索。为此,我们引入了ATLAS,这是第一个专门为表格数据量身定制的即时NAS方法。 | Abstract:
| 随着对表格数据分析需求的增长,从手动架构设计转向神经架构搜索(NAS)变得越来越紧张。这种变化要求一种高效且灵活的即时NAS方法,可以大概在任何给定时间预算内返回当前最优架构,并随着预算增长逐步进步架构质量。然而,针对表格数据的即时NAS研究领域仍然是一个未被探索的领域。为此,我们引入了ATLAS,这是第一个专门为表格数据设计的即时NAS方法。ATLAS采用了一种新颖的两阶段过滤和精化优化方案,团结了无训练和基于训练的架构评估方法。详细来说,在过滤阶段,ATLAS采用了一种专门为表格数据设计的无训练架构评估指标,以高效估算候选架构的性能,从而得到一组有前景的架构。随后,在精化阶段,ATLAS使用固定预算搜索算法来安排有前景候选的训练,以准确识别最佳架构。为了共同优化这两个阶段以实现即时NAS,我们还设计了一个预算意识协调器,以在约束条件下实现高NAS性能。实行评估表明,我们的ATLAS可以在任何预定的时间预算内得到良好的架构,并在有新的时间预算时返回更好的架构。总体而言,与现有NAS方法相比,ATLAS在表格数据上的搜索时间镌汰了高达82.75倍。 | Conclusion:
| ATLAS作为第一个针对表格数据的即时NAS方法,通过其创新的两阶段过滤和精化优化方案,乐成地解决了表格数据NAS的挑衅。该方法可以大概在任意的时间预算内提供高效能的架构,并随着时间预算的增长返回更优的架构。ATLAS的这一结果在镌汰搜索时间和进步架构质量方面具有紧张意义,为表格数据分析和NAS应用领域提供了一种新的高效工具。 | Methods:
|
- 两阶段过滤和精化优化方案: ATLAS引入了一个新颖的两阶段优化方案,团结了无训练和基于训练的架构评估的上风。
- 过滤阶段: 使用专门为表格数据设计的新型无训练架构评估指标,高效估算候选架构的性能,从而得到一组有前景的架构。
- 精化阶段: 使用固定预算搜索算法来安排有前景候选的训练,以准确识别最佳架构。
- 预算意识协调器: 开发了一个预算意识协调器,用于在约束条件下实现高NAS性能
| Keyresults:
|
- ATLAS可以大概在任何预定义的时间预算内得到性能良好的架构,并随着新的时间预算的提供返回更好的架构。
- 与现有NAS方法相比,在表格数据上的搜索时间镌汰了高达82.75倍。
| Code:
| Paper under double-blind review |

2. Archlock: Locking DNN Transferability At The Architecture Level With A Zero-Cost Bi-Nary Predictor(683)
Aim:
| 本论文旨在解决深度神经网络(DNN)模型在架构层面上的安全性题目,尤其是针对攻击者可能使用这些模型进行其他任务的风险。现有的防御策略主要关注模型参数级别的安全性,而架构级别的防御潜力还未被充分探索。论文的目标是通过镌汰架构层面上的可转移性来保护模型。 | Abstract:
| 尽管深度神经网络(DNN)模型表现出色,但它们容易被攻击者使用来顺应其他任务,以谋取自身利益。当前的防御策略主要在模型参数级别解决这一脆弱性,而架构级别的防御潜力大多未被探索。本文初次通过镌汰架构级别的可转移性来解决模型保护题目。详细来说,我们提出了一种新颖的神经架构搜索(NAS)启用算法,该算法采用零资本署理和进化搜索来设计具有低可转移性的模型架构。我们的方法,即ArchLock,旨在在源任务上实现高性能,同时降低目标任务的性能,即锁定DNN模型的可转移性。为了在没有访问攻击者训练数据的情况下实现高效的跨任务搜索,我们使用零资本署理加快架构评估,并模仿潜在目标任务嵌入以协助跨任务搜索,并使用二元性能预测器。在NAS-Bench-201和TransNAS-Bench-101的广泛实行表明,ArchLock分别将可转移性降低了高达30%和50%,同时在源任务上的性能损失可以忽略不计(<2%)。 | Conclusion:
| ArchLock方法乐成地通过镌汰架构层面上的可转移性来保护DNN模型,防止其被攻击者用于其他任务。通过使用零资本署理和进化搜索,该方法可以大概在不访问攻击者训练数据的情况下有用地进行跨任务搜索。实行结果证明白ArchLock在镌汰模型可转移性方面的有用性,同时保持了源任务上的良好性能,为DNN模型的安全性和防御策略提供了新的视角。 | Methods:
|
- NAS启用算法: 引入一种新颖的神经架构搜索(NAS)算法,使用零资本署理和进化搜索,设计低可转移性的模型架构。
- ArchLock方法: 旨在在源任务上实现高性能,同时降低目标任务的性能,即锁定DNN模型的可转移性。
- 跨任务搜索: 使用零资本署理加快架构评估,并模仿潜在目标任务嵌入,以协助跨任务搜索,并使用二元性能预测器。
| Keyresults:
|
- 在NAS-Bench-201和TransNAS-Bench-101上的广泛实行表明,ArchLock分别将可转移性降低了高达30%和50%。
- 在源任务上的性能损失可以忽略不计(<2%)。
| Code:
| Paper under double-blind review |

3.Composing Recurrent Spiking Neural Networks Using Locally-Recurrent Motifs And Risk-Mitigating Architectural Optimization(6555)
Aim:
| 研究旨在解决现有递归脉冲神经网络(RSNNs)体系架构优化的挑衅。该研究的目标是通过可扩展的架构和自动化优化,实现大型RSNNs的体系化设计。这一目标集中于改善网络功能和稳定性,这些在现有RSNNs中常因随机构建的毗连而受限。 | Abstract:
| 神经电路中,递归毗连在网络功能和稳定性中起着关键作用。然而,现有的递归脉冲神经网络(RSNN)通常通过随机毗连构建,没有进行优化。尽管RSNN能产生对影象形成和学习至关紧张的丰富动态,但体系性地优化RSNN架构还是一个开放的挑衅。我们旨在通过一种新的可扩展RSNN架构和自动化架构优化来实现大型RSNN的体系设计。我们基于一个名为希罕毗连的递归基元层(SC-ML)的层架构来组成RSNN,该架构由多个小型递归基元通过希罕侧向毗连组成。这些小型基元的小尺寸和希罕的基元间毗连使得RSNN架构可以大概扩展到大型网络规模。我们进一步提出了一种名为混淆风险缓解架构搜索(HRMAS)的方法,用于体系地优化所提出的递归基元和SC-ML层架构的拓扑结构。HRMAS是一个交替的两步优化过程,通过引入一种新颖的生物启发式“自修复”机制来减轻架构变化引起的网络不稳定性和性能退化风险,该机制通过内涵可塑性实现。内涵可塑性被引入到HRMAS迭代的第二步中,作为对结构和突触权重修改的快速自顺应的无监视情势,这些修改是在RSNN架构“进化”期间的第一步引入的。据作者所知,这是初次对RSNN进行体系性架构优化。我们在一个语音和三个神经形态数据集上的实行表明,我们提出的自动化架构优化方法比现有手工设计的RSNN带来了显著的性能改善。 | Conclusion:
| 据作者所知,该研究初次进行了RSNNs的体系架构优化。通过引入SC-ML和HRMAS,研究乐成地证明白可扩展RSNN架构和自动化架构优化的可行性和有用性,实现了显著的性能提拔。这种方法为设计和实现更先进的神经网络开发了新的途径。
| Methods:
|
- 希罕毗连的递归基元层(SC-ML): 该研究引入了一种由多个小型递归基元通过希罕侧向毗连组成的RSNN架构。这种方法旨在扩展RSNNs到更大的网络规模。
- 混淆风险缓解架构搜索(HRMAS): 提出了一种新颖的双步骤优化过程,用于体系化地优化RSNN架构。这包括通过内涵可塑性引入了一种生物启发式的“自修复”机制,以缓解由于架构变化导致的网络不稳定性和性能下降的风险。
| Keyresults:
|
- 相比现有手工设计的网络,展示了在RSNNs上的显著性能提拔。
- 将提出的架构和优化方法应用于一个语音和三个神经形态数据集,展示了性能的显著增强。
| Code:
| Paper under double-blind review |


4.Curriculum Reinforcement Learning For Quantum Architecture Search Under Hard-Ware Errors(665)
Aim:
|
- 在噪音中等规模量子期间的关键挑衅是找到与当前设备限定相兼容的有用电路。
- 本研究旨在解决噪声对量子体系结构搜索(QAS)的影响,这是一个至关紧张但现在明确不足的题目。
| Abstract:
| 在噪音中等规模量子期间的主要挑衅是寻找与当前设备限定兼容的有用电路。变分量子算法(VQAs)提供了一种解决方案,即起首固定电路架构,然后在外部循环中优化各个门的参数以解决任务。然而,性能优化可能是棘手的,整体性能以及优化高度依赖于最初固定的电路架构。为此,已经开发了几种量子体系结构搜索(QAS)算法,用于自动选择最佳电路架构。在参数优化方面,已经观察到噪声效应显著影响优化器的性能和最终结果,这是研究的关键方向。然而,对架构搜索的噪声影响,可能同样关键,现在却明确不足。在这项工作中,我们解决了这个题目。为此,我们起首通过在Pauli-Liouville底子上使用Pauli-传输矩阵情势,并将门与其相应的噪声模型和值融合在一起,显著进步了模仿真实量子电路的盘算时间。然后,我们设计了一个基于课程的强化学习QAS (CRLQAS) 算法,优化以应对真实VQA部署的挑衅,引入(i)三维架构编码和对环境动态的限定,以高效地探索可能电路的搜索空间,(ii)一个终止方案,引导署理找到更短的电路,以及(iii)一种用于更快收敛的同时扰动 | Conclusion:
|
- 通过使用基于Pauli-传输矩阵情势的方法和在Pauli-Liouville底子上融合门及其噪声模型和值,显著进步了模仿现实量子电路的盘算时间。
- 课程化基于强化学习的量子体系结构搜索(CRLQAS)算法在现实变分量子算法(VQA)部署的挑衅中表现优异。
| Methods:
|
- 开发了一个新的量子体系结构搜索(QAS)算法,用于自动选择最佳电路体系结构。
- 使用Pauli-传输矩阵情势在Pauli-Liouville底子上进行模仿,并引入了课程化的强化学习QAS (CRLQAS) 算法。
- CRLQAS算法包括三维体系结构编码、对环境动态的限定、一个终止方案来寻找更短的电路,以及一种用于更快收敛的同时扰动随机逼近算法的新变体。
| Keyresults:
| 数值实行集中在量子化学任务上,表现CRLQAS在无噪声和有噪声环境中均优于现有的QAS算法。 | Code:
| Paper under double-blind review |
5.Defying Multi-Model Forgetting: Orthogo-Nal Gradient Learning To One-Shot Neural Architecture Search (555)
Aim:
|
- 解决一次性神经架构搜索(NAS)中的多模型忘记题目,这是一个由于超参数网络(超网)通过权重共享组合全部架构而导致的题目。
- 提出一种解决方案,防止新采样的架构(与旧架构结构重叠)覆盖之前训练良好的架构权重。
| Abstract:
| 一次性神经架构搜索(NAS)通过使用权重共享训练一个超参数网络(称为超网),该网络将全部架构作为其子网集成,从而大大镌汰了盘算预算。然而,在一次性NAS中存在一个关于超网训练的多模型忘记题目,即之前训练良好的架构的某些权重会被具有重叠结构的新采样架构的权重覆盖。为了降服这个题目,我们提出了一种正交梯度学习(OGL)引导的超网训练范式用于一次性NAS,其新颖之处在于,当前架构的重叠结构的权重是沿着正交于这些重叠结构在全部之前训练架构的梯度空间的方向更新的。此外,我们设计了一种新的投影盘算方法,有用地找到梯度空间的基向量以得到正交方向。我们已经从理论上和实行上证明白所提出范式在降服多模型忘记方面的有用性。此外,我们将该范式应用于两个一次性NAS基线,实行结果表明,我们的方法可以大概减轻多模型忘记,进步一次性NAS中超网的预测本事,并在盛行的测试数据集上表现出显著的效率。
| Conclusion:
|
- 提出的正交梯度学习(OGL)引导的超网训练范式有用地降服了一次性NAS中的多模型忘记题目。
- 该方法增强了超网的预测本事,并在盛行测试数据集上显现出显著的效率。
| Methods:
|
- OGL方法的新颖之处在于更新当前架构的重叠结构权重,使其沿着与这些结构在全部先前训练架构中的梯度空间正交的方向。
- 设计了一种新的投影盘算方法,有用找到梯度空间的基向量,以得到正交方向。
- 将范式应用于两个一次性NAS基线
| Keyresults:
|
- 理论和实行均证明白所提出范式在降服多模型忘记方面的有用性。
- 该方法减轻了多模型忘记,并在一次性NAS中增强了超网的预测本事,同时在盛行的测试数据集上表现出显著的效率提拔。
| Code:
| Paper under double-blind review |
6.Differentiable Tree Search In Latent State Space(566)
Aim:
|
- 解决在训练数据有限的决议题目中,使用深度神经网络近似策略函数常常表现出次优性能的题目。
- 提出一种替代方法,该方法从有限数据中学习一个天下模型,并通过在线搜索来决定行动。
| Abstract:
| 在训练数据有限的决议题目中,使用深度神经网络近似的策略函数每每表现出次优性能。一种替代方法涉及从有限数据中学习一个天下模型,并通过在线搜索来决定行动。然而,由于学习到的天下模型中的不准确性引起的累积误差,性能会受到负面影响。虽然像TreeQN这样的方法试图通过将算法结构毛病纳入其架构来解决这些不准确性,但它们引入的毛病通常是微弱的,不足以处理复杂的决议任务。在这项工作中,我们介绍了可微分树搜索(DTS),这是一种新型的神经网络架构,它通过嵌入最优先在线搜索算法的算法结构,显著增强了归纳毛病。DTS采用学习到的天下模型在潜在状态空间中进行完全可微分的在线搜索。天下模型与搜索算法共同优化,使得学习到的天下模型更加鲁棒,并减轻模型不准确性的影响。我们解决了由于简朴引入最优先搜索而可能出现的Q函数不连续性题目,采用了一种随机树扩展策略,将搜索树扩展情势化为一个决议任务,并引入了一种有用的梯度盘算的方差镌汰技术。我们在有限训练数据的离线强化学 | Conclusion:
|
- 介绍了一种名为可微分树搜索(DTS)的新型神经网络架构,它通过嵌入最优先在线搜索算法的算法结构,显著增强了归纳毛病。
- DTS在潜在状态空间中使用学习到的天下模型进行完全可微分的在线搜索,镌汰了模型不准确性的影响,并提拔了模型性能。
| Methods:
|
- DTS采用了学习到的天下模型来进行潜在状态空间中的完全可微分在线搜索。
- 同时优化天下模型和搜索算法,从而学习到一个鲁棒的天下模型,并减轻模型不准确性的影响。
- 为了解决由于简朴引入最优先搜索可能导致的Q函数不连续性题目,DTS采用了一种随机树扩展策略,将搜索树扩展情势化为一个决议任务,并引入了一种有用的梯度盘算方差镌汰技术。
| Keyresults:
| 在有限训练数据情况下的离线强化学习环境中,针对Procgen博弈和网格导航任务评估了DTS,并证明DTS优于盛行的无模型和有模型基准。 | Code:
| Paper under double-blind review | 
7.Differential Model Scaling Using Differential Topk(6653) LLM
Aim:
| 增长在网络中寻找最优宽度和深度的效率。这是针对当前许多手动设计的网络架构经常导致次优配置的题目,以及神经架构搜索(NAS)方法搜索效率低下的题目。 | Abstract:
| 在过去几年中,随着大型语言模型开启智能出现的期间,对网络规模的关注日益加剧。现在,许多网络架构是手动设计的,这常常导致次优配置。尽管提出了神经架构搜索(NAS)方法来自动化这个过程,但它们的搜索效率很低。本研究引入了差分模型缩放(DMS),进步了在网络中寻找最优宽度和深度的效率。DMS可以直接且完全可微分地模仿宽度和深度,使其易于优化。我们已经在不同的任务上评估了我们的DMS,范围从视觉任务到天然语言处理任务,以及包括卷积神经网络和变换器在内的各种网络架构。结果一致表明,我们的DMS可以大概找到改进的结构,并且性能逾越了现有开始进的NAS方法。详细来说,对于ImageNet上的图像分类,我们的DMS分别将EfficientNet-B0和Deit-Tiny的top-1准确率进步了1.4%和0.6%,并且在仅需0.4 GPU天的搜索时间内就凌驾了开始进的零次NAS方法ZiCo 0.7%。在COCO上进行对象检测时,DMS将Yolo-v8-n的mAP进步了2.0%。在语言建模方面,我们修剪后的Llama-7B在低困惑度和更高的零次分类准确率方面凌驾了之前的方法。 | Conclusion:
|
- Differential Model Scaling (DMS)方法可以大概找到改进的结构,并且在性能上逾越了现有开始进的NAS方法。
- 在不同任务上的评估结果表明,DMS在寻找优化的网络结构方面具有显著上风。
| Methods:
|
- 引入了一种名为Differential Model Scaling (DMS)的新方法,用于直接且完全可微分地模仿网络的宽度和深度,从而易于优化。
- DMS已在不同的任务(包括视觉任务和天然语言处理任务)和不同的网络架构(包括卷积神经网络和变换器模型)上进行评估。
| Keyresults:
|
- 在ImageNet上的图像分类任务中,DMS将EfficientNet-B0和Deit-Tiny的top-1准确率分别进步了1.4%和0.6%,并在仅需0.4 GPU天的搜索时间内就凌驾了开始进的零次NAS方法ZiCo 0.7%。
- 在COCO上的对象检测任务中,DMS将Yolo-v8-n的mAP进步了2.0%。
- 在语言建模方面,修剪后的Llama-7B在低困惑度和更高的零次分类准确率方面凌驾了先前的方法。
| Code:
| Paper under double-blind review | 
8.DiffusionNAG: Predictor-Guided Neural Archi-Tecture Generation With Diffusion Models(566) VLM
Aim:
|
- 解决现有神经架构搜索(NAS)方法的局限性,特别是在重复采样和训练许多与任务无关的架构时所需的过多时间。
- 从NAS转向一种新的基于扩散模型的条件神经架构天生(NAG)框架——DiffusionNAG。
| Abstract:
| 现有的神经架构搜索(NAS)方法要么花费大量时间重复采样和训练许多与任务无关的架构。为了解决现有NAS方法的这些局限性,我们提出了从NAS到基于扩散模型的新颖条件神经架构天生(NAG)框架的范式变化,这一框架被称为DiffusionNAG。详细来说,我们将神经架构视为有向图,并提出了一种用于天生这些架构的图扩散模型。此外,在参数化预测器的引导下,DiffusionNAG可以灵活地天生具有所需属性的、适用于多种任务的最优架构,通过从更可能满足这些属性的地区中采样。这种条件NAG方案比之前通过属性预测器筛选架构的NAS方案更加高效。我们通过在两种基于预测器的NAS场景中的广泛实行验证了DiffusionNAG的有用性:可转移性NAS和基于贝叶斯优化(BO)的NAS。DiffusionNAG在可转移性NAS基准上与基线相比实现了高达20倍的加快。此外,当集成到基于BO的算法中时,DiffusionNAG优于现有的基于BO的NAS方法,特别是在ImageNet 1K数据集上的大型MobileNetV3搜索空间。
| Conclusion:
|
- DiffusionNAG作为一种条件NAG方案,比之前通过属性预测器筛选架构的NAS方案更高效。
- 在转移性NAS和基于贝叶斯优化(BO)的NAS场景中的实行验证了DiffusionNAG的有用性。
| Methods:
|
- 将神经架构视为有向图,并提出了一种用于天生这些架构的图扩散模型。
- DiffusionNAG通过参数化预测器的引导,可以大概灵活地天生具有所需属性的、适用于多种任务的最优架构,通过从更可能满足属性的地区中采样。
| Keyresults:
|
- DiffusionNAG在转移性NAS基准上与基线相比实现了高达20倍的加快。
- 当集成到基于BO的算法中时,DiffusionNAG优于现有的基于BO的NAS方法,特别是在大型MobileNetV3搜索空间上的ImageNet 1K数据集。
| Code:
| Paper under double-blind review | 
9.Encodings For Prediction-Based Neural Architecture Search(863)
Aim:
|
- 提拔神经架构搜索(NAS)优化,特别是通过改进神经网络架构的编码方法。
- 分类并研究三种主要的神经编码范例:结构性编码、学习型编码和基于分数的编码。
- 引入同一编码,扩展NAS预测器至多个搜索空间。
| Abstract:
| 基于预测器的方法显著增强了神经架构搜索(NAS)的优化,这些预测器的有用性在很大程度上受到神经网络架构编码方法的影响。虽然传统的编码使用邻接矩阵描述神经网络的图结构,但新型编码采用了多种方法,从无监视的潜在表示预训练到零资本署理的向量。在本文中,我们分类并研究了三种主要的神经编码范例:结构性编码、学习型编码和基于分数的编码。此外,我们扩展了这些编码,并引入了同一编码,将NAS预测器扩展到多个搜索空间。我们的分析基于在NASBench-101 (NB101), NB201, NB301, Network Design Spaces (NDS) 和 TransNASBench-101 等NAS空间上凌驾150万个神经网络架构的实行。在我们的研究底子上,我们提出了我们的预测器FLAN:Flow Attention for NAS。FLAN团结了预测器设计、迁移学习和同一编码的关键洞见,使得训练NAS准确性预测器的资本大幅降低。 | Conclusion:
|
- 提出了FLAN(Flow Attention for NAS),一个融合关键洞见的NAS预测器,涉及预测器设计、迁移学习和同一编码。
- FLAN可以大概显著降低训练NAS准确性预测器的资本,达到数量级的镌汰。
| Methods:
|
- 分类和研究了神经网络架构编码的三种主要方法:结构性编码、学习型编码和基于分数的编码。
- 对同一编码进行了扩展,以支持在多个搜索空间中使用NAS预测器。
- 进行了凌驾150万个神经网络架构的实行分析,涵盖如NASBench-101 (NB101), NB201, NB301, Network Design Spaces (NDS), 以及TransNASBench-101等NAS空间。
| Keyresults:
| FLAN预测器团结了预测器设计、迁移学习和同一编码的关键洞见,使得训练NAS准确性预测器的资本大幅降低 | Code:
| Paper under double-blind review
https://anonymous.4open.science/r/flan_nas-433F/
| 


10.Fast Neural Architecture Search With Random Neural Tangent Kernel (636)
Aim:
|
- 提出一种基于理论导出的标准化泛化误差的毛病-方差分解的神经架构搜索(NAS)方法,称为NAS-NGE。
- 该研究旨在降服现有训练无关的NAS方法的局限性,这些方法的性能估计署理基于训练误差而非泛化误差。
| Abstract:
| 神经架构搜索(NAS)对于自动化设计深度神经网络(DNN)架构非常有用。比年来,已经提出了许多无需训练的NAS方法,镌汰搜索资本增长了对现实天下应用的期望。然而,在基于理论配景的最新无需训练NAS中,即NASI,候选架构的测试性能估计署理是基于训练误差而非泛化误差。在这项研究中,我们提出了一种基于从标准化泛化误差的毛病-方差分解理论导出的署理的NAS,称为NAS-NGE。详细来说,我们提出了神经切线核(NTK)标准化第二阶矩的替代品,并将其与标准化毛病一起用来构建NAS-NGE。我们使用NAS基准来证明所提出方法的有用性,通过将其与最新的无需训练NAS进行比较,展示了在短时间内搜索的上风。 | Conclusion:
|
- NAS-NGE通过使用标准化毛病和神经切线核(NTK)的标准化第二阶矩的替代品,提供了一种更有用的结构搜索方法。
- 与现有的训练无关的NAS方法相比,在短时间内搜索,NAS-NGE表现出了更好的效果
| Methods:
|
- 提出了一种新的神经架构搜索方法,即NAS-NGE,它是基于标准化泛化误差的毛病-方差分解理论导出的。
- 使用神经切线核(NTK)的标准化第二阶矩的替代品以及标准化毛病来构建NAS-NGE。
| Keyresults:
| 使用NAS Benchmarks来证明所提出方法的有用性,并将其与现有的训练无关的SOTA NAS进行比较,表现出NAS-NGE在短时间搜索内的上风。 | Code:
| Paper under double-blind review |
11.Gradient-Free Proxy For Efficient Language Model Search (8553) NLP
Aim:
| 开发一种针对轻量级语言模型的新型零次神经架构搜索(NAS)方法,称为加权PCA(W-PCA),以解决现有零次NAS方法的评估毛病和盘算效率题目。 | Abstract:
| 对高效天然语言处理(NLP)体系的需求推动了轻量级语言模型的发展。此领域之前的工作主要集中在手动设计或基于训练的神经架构搜索(NAS)方法。最近,提出了零次NAS方法,用于在无需训练的情况下评估语言模型。然而,现有的零次NAS方法常常面临如评估指标毛病和盘算效率低下等挑衅。在本文中,我们介绍了一种针对轻量级语言模型的新型零次NAS方法,称为加权PCA(W-PCA)。我们的方法使用两种评估署理:参数计数和前馈神经网络层的主成分分析(PCA)值。这提供了对语言模型性能的全面且无偏的评估。此外,通过消除梯度盘算的需要,我们优化了评估时间,从而进步了设计和评估轻量级语言模型的效率。我们在GLUE和SQuAD数据集上进行了比较分析,以评估我们的方法。结果表明,我们的方法与一次NAS方法相比显著镌汰了训练时间,并在测试阶段取得了比之前开始进的基于训练的方法更高的分数。此外,我们在从FlexiBERT搜索空间抽样的数据集上进行了排名评估。我们的方法表现出良好的排名相关性,并与其他需要梯度盘算的零次NAS方法相比进一步镌汰了解决时间。 | Conclusion:
|
- W-PCA通过使用两种评估署理——参数计数和前馈神经网络层的主成分分析(PCA)值——提供了全面且无偏的语言模型性能评估。
- 该方法优化了评估时间,进步了设计和评估轻量级语言模型的效率。
| Methods:
|
- W-PCA使用参数计数和前馈神经(FFN)层的PCA值作为评估署理。
- 该方法消除了梯度盘算的需要,从而优化了评估时间。
| Keyresults:
|
- 在GLUE和SQuAD数据集上进行的比较分析表明,该方法显著镌汰了与一次NAS方法相比的训练时间,并在测试阶段取得了比之前开始进的基于训练的方法更高的分数。
- 在从FlexiBERT搜索空间抽样的数据集上进行的排名评估表现,W-PCA表现出良好的排名相关性,并与其他需要梯度盘算的零次NAS方法相比进一步镌汰了解决时间。
| Code:
| Paper under double-blind review | 
12.Graph Is All You Need? Lightweight Data-Agnostic Neural Architecture Search Without Training(536)
Aim:
| 通过一种新方法(称为NASGraph)镌汰神经架构搜索(NAS)中的盘算资本。NAS的目的是自动设计神经网络模型,但传统方法中评估性能时训练候选架构需要大量盘算资源。 | Abstract:
| 神经架构搜索(NAS)使神经网络模型的自动设计成为可能。然而,为了性能评估而训练搜索算法天生的候选模型会产生相当大的盘算开销。我们的方法,称为NASGraph,通过将这些神经架构转换为图形,并使用转换后图形的属性作为替代验证准确度的得分,显著镌汰了盘算资本。我们的无需训练的NAS方法是数据不可知的且轻量级的。它可以在217 CPU秒内从NAS-Bench201中随机抽样的200个架构中找到最佳架构。我们可以大概在NASBench-101、NASBench-201和NDS搜索空间中的9个数据集中的7个上实现最新的性能。我们还展示了NASGraph在Micro TransNAS-Bench-101上更具挑衅性的任务中的泛化本事。 | Conclusion:
|
- NASGraph通过将神经网络架构转换为图形,并使用转换后的图的属性作为验证准确度的替代得分,显著镌汰了盘算资本。
- 在9个数据集中的7个上实现了最新的性能,并在更具挑衅性的任务上也展示了NASGraph的泛化本事。
| Methods:
|
- NASGraph将神经网络架构转换为图形,并使用这些图的属性作为性能评估的署理得分,从而避免了对模型的训练。
- 这种方法是数据不可知的,轻量级的。
| Keyresults:
|
- NASGraph在NAS-Bench201中从200个随机样本的架构中找到最佳架构,仅需217 CPU秒。
- 在NASBench-101、NASBench-201和NDS搜索空间中的7个数据集上实现了最新性能。
- 在Micro TransNAS-Bench-101上的更具挑衅性的任务中展示了NASGraph的泛化本事。
| Code:
| Paper under double-blind review |
13.Interleaving Multi-Task Neural Architecture Search(336)
Aim:
| 提出一种新的多任务神经架构搜索(MTNAS)框架,称为交错MTNAS,旨在解决在多任务学习中平衡不同损失函数权重的题目,这通常需要大量的调优,既耗时又劳力密集。 | Abstract:
| 多任务神经架构搜索(MTNAS),即搜索一个可以大概适用于多个任务的共享架构,已经被广泛研究。在这些方法中,通过最小化它们损失的加权和来同时学习多个任务。怎样通过找到最优损失权重来平衡这些损失需要大量的调解,这既耗时又劳力密集。为了解决这个题目,我们提出了一个交错MTNAS框架,其中不需要调解损失权重。在我们的方法中,一组任务(比方A、B、C)以交错循环的方式执行(比方ABCABCABC...),每个任务将其知识通报给下一个任务。每个任务通过最小化其自身的损失函数来学习,而不干扰其他任务的损失。个别任务的损失函数被构造成一个多级优化框架,使全部任务可以大概端到端地执行。我们的方法在多种实行中展示了其有用性。 | Conclusion:
|
- 在交错MTNAS框架中,无需调解损失函数的权重。
- 每个任务通过最小化其自身的损失函数来学习,而不干扰其他任务的损失。
| Methods:
|
- 在交错MTNAS框架中,一组任务(比方A, B, C)按交错循环(比方ABCABCABC...)执行,每个任务将其知识通报给下一个任务。
- 损失函数被构造成一个多级优化框架,使得全部任务可以大概端到端地执行。
| Keyresults:
| 该方法在多种实行中展示了其有用性 | Code:
| Paper under double-blind review |
14.LayerNAS: Neural Architecture Search In Polynomial Complexity(585)
Aim:
|
- 提出一种名为LayerNAS的新方法,以解决多目标神经架构搜索(NAS)的挑衅,特别是在目标硬件上找到最优架构的需求。
- 将多目标NAS转化为组合优化题目,有用地将搜索复杂性约束为多项式级别。
| Abstract:
| 神经架构搜索(NAS)已成为发现有用模型架构的盛行方法,特别是针对目标硬件。因此,可以大概在约束条件下找到最优架构的NAS方法至关紧张。在我们的论文中,我们提出了LayerNAS,通过将多目标NAS转换为组合优化题目来应对挑衅,有用地将搜索复杂性约束为多项式级别。LayerNAS严酷从一个基本假设推导出其方法,即对前面层的修改不会影响后续层。在处理满足此要求的含有L层的搜索空间时,该方法对每个层进行逐层搜索,从一组搜索选项S中选择。LayerNAS根据一个目标(如模型大小或延迟)对模型候选进行分组,并根据另一个目标搜索最优模型,从而分离搜索的资本和回报元素。这种方法将搜索复杂度限定为O(H· |S| ·L),其中H是LayerNAS中设置的常数。我们的实行表明,LayerNAS可以大概在多种搜索空间中与强基线相比,一致地发现良好的模型,包括从NATS-Bench、MobileNetV2和MobileNetV3派生的搜索空间。
| Conclusion:
|
- LayerNAS基于一个基本假设——对前面层的修改不会影响后续层——严酷推导出其方法。
- 该方法通过限定搜索复杂度,可以大概在不同的搜索空间中一致地发现良好的模型。
| Methods:
|
- LayerNAS对每个层进行逐层搜索,从一组搜索选项S中选择。
- 它根据一个目标(如模型大小或延迟)对模型候选进行分组,并根据另一个目标搜索最优模型,从而分离搜索的资本和回报元素。
- 这种方法将搜索复杂度限定为O(H· |S| ·L),其中H是LayerNAS中设置的常数。
| Keyresults:
| LayerNAS在多种搜索空间中与强基线相比,可以大概一致地发现良好的模型,包括从NATS-Bench、MobileNetV2和MobileNetV3派生的搜索空间 | Code:
| Paper under double-blind review |
15.Lightweight Graph Neural Network Search With Graph Sparsification(583)
Aim:
| 提出一种名为GASSIP(使用图希罕化和网络剪枝的轻量级图神经架构搜索)的新方法,旨在图结构任务中设计轻量级图神经网络(GNNs)。 | Abstract:
| 图神经架构搜索(GNAS)在各种图结构任务上取得了杰出的性能。然而,现有的GNAS研究忽视了GNAS在资源受限场景中的应用。本文提出设计一个团结图数据和架构机制,通过有代价的图数据识别紧张的子架构。为了寻找最优的轻量级图神经网络(GNNs),我们提出了一种轻量级图神经架构搜索方法,包括图希罕化和网络剪枝(GASSIP)。特别是,GASSIP包括一个操纵剪枝的架构搜索模块,以实现高效的轻量级GNN搜索。同时,我们设计了一个创新的课程图数据希罕化模块,共同架构感知的边缘移除难度度量,以帮助选择最佳子架构。使用两个可微分的掩码,我们迭代地优化这两个模块,高效地搜索最佳轻量级架构。在五个基准测试上的广泛实行表明白GASSIP的有用性。特别是,我们的方法在节点分类性能上实现了与或甚至凌驾更多模型参数的搜索GNNs和更希罕图形相当的性能,同时模型参数镌汰一半或更少。 | Conclusion:
| GASSIP有用地搜索到了优化的轻量级架构,并且实现了高性能,特别是在资源受限的场景中。 | Methods:
|
- GASSIP包括一个操纵剪枝的架构搜索模块,以实现高效的轻量级GNN搜索。
- 设计了一个创新的课程图数据希罕化模块,共同架构感知的边缘移除难度度量,以帮助选择最佳子架构。
- 使用两个可微分的掩码,迭代地优化这两个模块,高效地搜索最佳轻量级架构。
| Keyresults:
|
- 在五个基准测试上的广泛实行表明白GASSIP的有用性。
- 特别是,该方法在节点分类性能上实现了与或甚至凌驾更多模型参数的搜索GNNs和更希罕图形相当的性能,同时模型参数镌汰一半或更少。
| Code:
| Paper under double-blind review |
16. LLM Performance Predictors Are Good Initializers For Architecture Search (6653) LLM
Aim:
| 探索使用大型语言模型(LLMs)构建性能预测器(PP)的新用途:预测特定深度神经网络架构在下游任务上的性能。 | Abstract:
| 大型语言模型(LLMs)已成为解决广泛NLP任务的一个紧张组成部门。在这项工作中,我们探索了使用LLMs构建性能预测器(PP)的新用途:这些模型可以大概预测特定深度神经网络架构在下游任务上的性能。我们为LLMs设计了PP提示,包括:(i) 脚色:分配给LLM的脚色描述;(ii) 指令:LLM执行性能预测时应遵循的一系列指令;(iii) 超参数:每个架构特定超参数的定义;(iv) 演示:带有用率指标和“从零开始训练”的性能的样本架构。对于机器翻译(MT)任务,我们发现团结我们PP提示的GPT-4(LLM-PP)可以大概预测架构性能,其均匀绝对误差与最新技术(SOTA)相匹配,排名相关系数略有下降。此外,我们展示了LLM-PP的预测可以被蒸馏到一个小的回归模型(LLM-Distill-PP)。LLM-Distill-PP模型在很大程度上保留了LLM-PP的性能,并可以成为性能估计重度使用场景的资本效益高的替代方案。特别地,对于神经架构搜索(NAS),我们提出了一种混淆搜索算法(HS-NAS),该算法在搜索的初始部门使用LLM-Distill-PP,余下的搜索过程则使用基线预测器。我们展示了HS-NAS在跨基准测试的NAS性能与SOTA相似,镌汰了约50%的搜索时间,并且在某些情况下改善了延迟、GFLOPs和模型大小。 | Conclusion:
|
- GPT-4团结我们的性能预测器提示(LLM-PP),在机器翻译(MT)任务上可以大概预测架构性能,其均匀绝对误差与开始进(SOTA)相匹配,排名相关系数略有降低。
- LLM-PP的预测可以被蒸馏到一个小的回归模型(LLM-Distill-PP),大大保留了LLM-PP的性能,并为性能估计的重度使用场景提供了一个资本效益高的替代方案。
| Methods:
|
- 设计了包括脚色描述、指令集、架构特定超参数定义和带效率指标的样本架构及“从零开始训练”的性能的LLM提示。
- 提出了一种团结LLM-Distill-PP的混淆搜索算法用于神经架构搜索(NAS),即HS-NAS。
| Keyresults:
| HS-NAS在跨基准测试的NAS性能与SOTA相似,搜索时间镌汰约50%,并且在某些情况下改善了延迟、GFLOPs和模型大小。 | Code:
| Paper under double-blind review | 
17. Masked Distillation Advances Self-Supervised Transformer Architecture Search(668)
Aim:
| 提出一种名为MaskTAS的视觉transformer自监视神经架构搜索方法,旨在避免监视学习中昂贵的数据标记资本。 | Abstract:
| Transformer架构搜索(TAS)在自动化视觉变换器的神经架构设计过程中取得了显著进展。最近的TAS进展在节省了大量人力专家劳动的同时,发现了出色的Transformer架构。然而,由于监视学习范式下昂贵的数据标记资本,这些方法仍然难以在现实应用中部署。为此,本文提出了一种基于掩码图像建模(MIM)的自监视神经架构搜索方法,专门为视觉变换器设计,称为MaskTAS,完全避免了监视学习中继续的昂贵数据标记资本。基于一次性NAS框架,MaskTAS需要训练各种共享权重的子网,在MIM底子的自监视学习中,没有强监视容易发散。针对这个题目,我们设计了MaskTAS的搜索空间,作为双生西席-学生架构,以提炼预训练网络的知识,实现高效训练变换器超网络。为了实现自监视Transformer架构搜索,我们进一步设计了一种新的无监视评估指标用于进化搜索算法,其中每个学生分支的候选者通过测量与更大的西席网络的一致性来评价。广泛的实行表明,搜索到的架构即使不使用人工标签,也能在CIFAR-10、CIFAR-100和ImageNet数据集上实现开始进的准确性。此外,所提出的MaskTAS可以大概通过自监视方式搜索特定于任务的Transformer架构,良好地泛化到不同的数据域和任务。 | Conclusion:
|
- MaskTAS基于一次性NAS框架,通过设计双生西席-学生架构来提取预训练网络的知识,有用地训练transformer超网络。
- 该方法在自监视方式下通过一种新的无监视评估指标实现了神经架构搜索。
| Methods:
|
- MaskTAS基于掩码图像建模(MIM)的自监视学习。
- 设计了一个特定于视觉Transformer的搜索空间,作为双生西席-学生架构,用于从预训练网络中提炼知识。
- 为进化搜索算法设计了一种新的无监视评估指标,通过测量学生分支的候选者与更大的西席网络的一致性来评价。
| Keyresults:
|
- 在CIFAR-10、CIFAR-100和ImageNet数据集上,搜索到的架构即使不使用人工标签也能实现开始进的准确性。
- MaskTAS可以大概通过自监视方式搜索特定于任务的变换器架构,良好地泛化到不同的数据域和任务。
| Code:
| Paper under double-blind review | 

18.Mixture-Of-Supernets: Improving Weight-Sharing Supernet Training With Architecture-Routed Mixture-Of-Experts(5553)
Aim:
| 提出一种名为MaskTAS的视觉变换器自监视神经架构搜索方法,旨在避免监视学习中昂贵的数据标记资本。 | Abstract:
| 共享权重的超网络已成为最新神经架构搜索(NAS)框架中性能估计的关键组成部门。尽管超网络可以直接天生不同的子网络而无需重新训练,但由于权重共享,这些子网络的质量无法得到包管。在NLP任务中,如机器翻译和预训练语言模型,我们观察到,对于相同的模型架构,超网络与从零开始训练之间存在很大的性能差距。因此,超网络不能直接使用,找到最优架构后仍需要重新训练。
在这项工作中,我们提出了“混淆超网络”,一种通用超网络公式化方法,其中采用了专家混淆(MoE)技术来增强超网络模型的表达本事,同时保持训练开销微小。通过这种方式,不同的子网络不是直接共享模型权重,而是通过基于架构的路由机制间接共享。这样,不同子网络的模型权重针对它们的特定架构进行定制,且权重天生通过梯度下降学习。与NLP领域现有的共享权重超网络相比,我们的方法可以最小化重训练时间,显著进步训练效率。此外,所提出的方法在构建快速机器翻译模型的NAS中达到了开始进的性能,与HAT相比有更好的延迟-BLEU权衡。我们还在构建内存高效的任务不可知BERT模型的NAS中实现了开始进的性能,凌驾了NAS-BERT和AutoDistil的不同模型大小。
| Conclusion:
|
- 混淆超网络采用专家混淆(MoE)技术增强超网络模型的表达本事,同时保持训练开销微小。
- 这种方法优化了重训练时间,显著进步了训练效率。
| Methods:
|
- 与现有的NLP领域的共享权重超网络相比,此方法可以最小化重训练时间。
- 在构建快速机器翻译模型的NAS中达到了开始进的性能,与HAT相比有更好的延迟-BLEU权衡。
- 在构建内存高效的任务不可知BERT模型的NAS中也实现了开始进的性能,凌驾了NAS-BERT和AutoDistil的不同模型大小。
| Keyresults:
|
- 与现有的NLP领域的共享权重超网络相比,此方法可以最小化重训练时间。
- 在构建快速机器翻译模型的NAS中达到了开始进的性能,与HAT相比有更好的延迟-BLEU权衡。
- 在构建内存高效的任务不可知BERT模型的NAS中也实现了开始进的性能,凌驾了NAS-BERT和AutoDistil的不同模型大小。
| Code:
| Paper under double-blind review | 
19. Neural Architecture Retrieval(688)
Aim:
|
- 定义并解决一个新题目:神经架构检索,旨在高效、自动地发现与查询神经架构设计相似的现有神经架构。
| Abstract:
| 随着新神经架构设计的不绝增长和大量现有神经架构的存在,研究人员很难将本身的贡献与现有神经架构进行比较,或创建本身的设计与其他相关设计之间的联系。为了高效且自动地发现与查询神经架构设计相似的现有神经架构,我们定义了一个新题目——神经架构检索,它检索一组与查询神经架构设计相似的现有神经架构。由于图的大小和模体,现有的图预训练策略无法解决神经架构中的盘算图题目。为了实现这一目标,我们提出将图分割成模体,并用这些模体重建宏观图来解决这些题目,并引入多级对比学习以实现精确的图表示学习。在人工设计和合成的神经架构上进行的广泛评估证明白我们算法的良好性。为神经架构检索,我们构建了一个包含12k个真实天下网络架构及其嵌入的数据集。
| Conclusion:
|
- 通过将神经架构的盘算图分割成模体,并重建宏观图,加上多级对比学习,有用实现了精确的图表示学习。
- 该方法在人工设计和合成的神经架构上的广泛评估证明白其良好性。
| Methods:
|
- 提出将神经架构的盘算图分割成模体,并重建宏观图来解决图大小和模体题目。
- 引入多级对比学习来实现精确的图表示学习。
| Keyresults:
| 构建了一个包含12k个真实天下网络架构及其嵌入的数据集,用于神经架构检索。 | Code:
| Paper under double-blind review |
20.Neural Fine-Tuning Search For Few-Shot Learning(886)
Aim:
| 探索怎样设计最优的顺应策略,用于少量样本识别中,让一个已经在一组种别上训练过的分类器快速顺应并泛化到一个新的、不相交的种别集。 | Abstract:
| 在少量样本识别中,已经在一组种别上训练过的分类器需要快速顺应并泛化到一个新的、不相交的种别集。为此,最近的研究已经表现了通过精心设计的顺应架构进行微调的有用性。然而,这引发了一个题目:怎样设计最优的顺应策略?在这篇论文中,我们通过神经架构搜索(NAS)的角度研究了这个题目。给定一个预训练的神经网络,我们的算法可以发现顺应器的最佳配置,决定哪些层保持冻结和哪些层进行微调。我们通过将这种NAS方法应用于残差网络和视觉变换器来展示其通用性,并在Meta-Dataset和Meta-Album上报告了最新的性能。 | Conclusion:
|
- 通过神经架构搜索(NAS),研究了怎样发现顺应器的最佳配置、哪些层保持冻结以及哪些层进行微调的题目。
- 证明白所提出的NAS方法的通用性,通过将其应用于残差网络和视觉变换器,并在Meta-Dataset和Meta-Album上报告了最新的性能。
| Methods:
| 开发了一种算法,用于在预训练的神经网络上发现顺应器的最佳配置,包括决定哪些层保持冻结和哪些层进行微调。 | Keyresults:
| 在Meta-Dataset和Meta-Album上实现了最新的性能,展示了NAS方法在不同网络架构中的应用潜力。 | Code:
| Paper under double-blind review |
21.Neural Neighborhood Search For Multi-Agent Path Finding(663)
Aim:
| 在多智能体路径规划(MAPF)领域中解决一项特定挑衅,即怎样使用深度学习引导的大邻域搜索(LNS)方法。 | Abstract:
| 多智能体路径规划(MAPF)是规划多个智能体的最优无碰撞路径的组合题目,应用于机器人、物流和交通领域。虽然许多近期的基于学习的工作专注于通过将大规模组合题目分解为一系列较小子题目的方法,但MAPF的空间时间团结和时间限定特性对基于学习的迭代方法如大邻域搜索(LNS)的引导构成了特别挑衅,即使在没有学习的情况下LNS已是MAPF的开始进方法。我们通过设计一个交织卷积和注意力机制的架构来解决这个挑衅,高效表示MAPF子题目,实用地引导LNS在基准设置中的应用。我们展示了我们方法相对于现有开始进的基于LNS的MAPF方法的加快效果,以及该方法对未见设置的鲁棒性。我们提出的方法拓展了有用的深度学习引导的LNS方法在多路径规划题目中的应用范围,我们提出的表示方式可能更广泛地适用于表示路径间的交互。 | Conclusion:
|
- 通过设计一个交织卷积和注意力机制的架构,有用地表示MAPF子题目,使得LNS在基准设置中得到现实的引导。
- 展示了该方法相对于现有开始进的LNS-based MAPF方法的加快效果,以及该方法对未见设置的鲁棒性。
| Methods:
|
- 设计了一个团结了卷积和注意力机制的架构,以高效表示MAPF子题目,从而实用地引导LNS。
- 提出的方法扩展了深度学习引导的LNS方法在多路径规划题目中的应用,并且提出的表示方式可能更广泛地适用于表示路径间交互。
| Keyresults:
|
- 该方法在MAPF的现有开始进的基于LNS的方法上实现了加快,并且在未见设置中表现出鲁棒性。
- 扩展了深度学习引导的LNS方法在多路径规划题目中的应用范围。
| Code:
| Paper under double-blind review |
22.Quantum Architecture Search With Unsupervised Representation Learning(555)
Aim:
| 探索无监视表示学习在量子架构搜索(QAS)中的应用,目的是在噪声中等规模量子(NISQ)设备上实现潜在的量子上风。 | Abstract:
| 使用无监视表示学习进行量子架构搜索(QAS)代表了一种前沿方法,旨在在噪声中等规模量子(NISQ)设备上实现潜在的量子上风。QAS是一种设计变分量子算法(VQAs)中量子电路的方案。大多数QAS算法将它们的搜索空间和搜索算法团结在一起,因此通常需要在搜索过程中评估大量量子电路,导致巨大的盘算需求,并限定了它们在大规模量子电路中的应用。基于预测器的QAS算法可以通过直接根据电路结构估算电路性能来减轻这个题目。然而,高性能的预测器通常需要进行非常耗时的标记工作,以得到大量标记的量子电路,因为量子电路的门参数需要优化到它们的真实性能。最近,一个经典的神经架构搜索算法Arch2vec启发了我们,表现架构搜索可以从搜索过程中解耦无监视表示学习。无监视表示学习是否可以帮助QAS而无需任何预测器仍然是一个开放的话题。在这项工作中,我们提出了一个框架,将QAS与无监视表示学习相团结,并可视化了无监视架构表示学习是怎样促进具有雷同毗连和操纵符的量子电路架构聚集在一起。详细来说,我们的框架使得QAS过程可以从无监视架构表示学习中脱钩,以便直策应用于不同的下游应用。此外,我们的框架无需预测器,省去了对大量标记量子电路的需求。在搜索过程中,我们使用了两种算法REINFORCE和贝叶斯优化直接在潜在表示上进行搜索,并与随机搜索方法进行了比较。结果表现,我们的框架可以大概在有限数量的搜索中更有用地得到高性能的候选电路。 | Conclusion:
|
- 提出了一种框架,通过无监视表示学习来促进量子电路架构搜索,使得具有雷同毗连和操纵符的量子电路架构聚集在一起。
- 该框架无需预测器,省去了对大量标记量子电路的需求。
| Methods:
|
- 开发了一个框架,该框架使得QAS过程可以从无监视架构表示学习中脱钩,以便直策应用于不同的下游应用。
- 在搜索过程中,使用了两种算法REINFORCE和贝叶斯优化直接在潜在表示上进行搜索,并与随机搜索方法进行了比较。
| Keyresults:
| 结果表现,该框架可以大概在有限数量的搜索中更有用地得到高性能的候选电路。 | Code:
| Paper under double-blind review | 

23. Robust NAS Benchmark Under Adversarial Training: Assessment, Theory, And Beyond(666)
Aim:
| 解决神经架构搜索(NAS)中寻找对抗恶意数据鲁棒的架构的题目,特别是在考虑对抗性训练时缺乏基准评估和理论包管的挑衅。 | Abstract:
| 神经架构搜索(NAS)的最新发展强调了考虑抵抗恶意数据的鲁棒架构的紧张性。然而,在搜索这些鲁棒架构时,特别是在考虑对抗性训练时,缺乏基准评估和理论包管。在这项工作中,我们旨在解决这两个挑衅,做出双重贡献。起首,我们发布了一个全面的数据集,包括了来自NAS-Bench-201搜索空间的大量对抗性训练网络在图像数据集上的干净准确度和鲁棒准确度。然后,使用深度学习理论中的神经切线核(NTK)工具,我们为在多目标对抗性训练下搜索架构的干净准确度和鲁棒准确度创建了泛化理论。我们坚信,我们的基准和理论洞见将通过可靠的可复现性、高效的评估和理论底子,显著造福NAS社区,特别是在寻求鲁棒架构的寻求中。 | Conclusion:
| 通过提供一个全面的数据集,涵盖了广泛的对抗性训练网络在图像数据集上的干净准确度和鲁棒准确度,以及通过深度学习理论中的神经切线核(NTK)工具,创建了在多目标对抗性训练下寻找架构的干净准确度和鲁棒准确度的泛化理论。 | Methods:
|
- 发布了一个全面的数据集,包括了来自NAS-Bench-201搜索空间的大量对抗性训练网络在图像数据集上的干净准确度和鲁棒准确度。
- 使用神经切线核(NTK)工具创建了对抗性训练下架构搜索的干净准确度和鲁棒准确度的泛化理论。
| Keyresults:
| 为NAS社区提供了可靠的可复现性、高效的评估和理论底子,特别是在寻求鲁棒架构的寻求中。 | Code:
| Paper under double-blind review |
24.Robustifying And Boosting Training-Free Neural Architecture Search(583)
Aim:
| 提出一种名为鲁棒增强无需训练神经架构搜索(RoBoT)的算法,旨在解决无需训练NAS在估计真实架构性能时的挑衅,特别是在不同任务间准确度变化的题目。 | Abstract:
| 神经架构搜索(NAS)已成为AutoML的关键组成部门,并成为自动化设计深度神经网络的标准工具。近期,作为新兴范式的无需训练NAS乐成地通过仅使用无需训练指标来估计真实架构性能,从而镌汰了标准基于训练NAS的搜索资本。然而,这些指标的估计本事通常在不同任务间变化,使得仅用单一无需训练指标在多样任务上实现鲁棒且连续良好的搜索性能变得具有挑衅性。与此同时,无需训练指标与真实架构性能之间的估计差距限定了无需训练NAS实现更优性能。为了应对这些挑衅,我们提出了一种名为鲁棒增强无需训练神经架构搜索(RoBoT)的算法,该算法(a)通过贝叶斯优化探索现有无需训练指标的优化组合,开发出在多样任务上更鲁棒、表现更优的指标,以及(b)在新开发的指标上应用贪婪搜索,即使用,来弥合上述差距,从而进一步提拔标准无需训练NAS的搜索性能。值得注意的是,我们的RoBoT算法的预期性能在理论上得到了包管,在适度条件下比现有无需训练NAS表现更好,并带来了有趣的洞见。我们在各种NAS基准任务上进行的广泛实行为我们的理论结果提供了实证支持。 | Conclusion:
|
- RoBoT算法通过优化现有无需训练指标的组合,开发出在不同任务上鲁棒性和性能一致更优的指标。
- 通过在新开发的指标上应用贪婪搜索,即使用,来弥合现有无需训练指标与真实架构性能之间的差距,从而进一步提拔标准无需训练NAS的搜索性能。
| Methods:
|
- 使用贝叶斯优化探索现有无需训练指标的优化组合,以开发出在多样任务上更好表现的鲁棒指标。
- 应用贪婪搜索策略在新开发的指标上进行搜索,以进步搜索性能。
| Keyresults:
|
- RoBoT算法的预期性能在理论上得到了包管,比现有无需训练NAS在适度条件下表现更好,并带来了有趣的洞见。
- 在各种NAS基准任务上的广泛实行为我们的理论结果提供了实证支持。
| Code:
| Paper under double-blind review |
25.Search: A Self-Evolving Framework For Network Architecture Optimization(535)
Aim:
| 探索一种新的网络优化方法,该方法旨在在给定资源预算(少量参数和/或快速推理)下找到具有最佳性能(低损失)的网络架构。 | Abstract:
| 本文研究了一种基本的网络优化题目,即在给定资源预算(参数数量少和/或快速推理)下寻找具有最优性能(低损失)的网络架构。与现有的网络优化方法如网络剪枝、知识蒸馏(KD)和神经架构搜索(NAS)不同,我们在这项工作中引入了一种自进化管道来执行网络优化。在这个框架中,一个简朴的网络通过使用来自西席网络的引导,迭代地和自顺应地修改其结构,直到达到资源预算。我们引入了一个注意力模块,将知识从西席网络转移到学生网络。同时,设计了一个拆分边缘方案,帮助学生模型找到最佳的宏观架构。所提出的框架团结了剪枝、KD和NAS的长处,因此可以有用地天生具有灵活结构和抱负性能的网络。在CIFAR-10、CIFAR-100和ImageNet上进行的广泛实行表明,我们的框架在网络架构优化任务中取得了出色的性能。 | Conclusion:
| 提出的自进化管道团结了网络剪枝、知识蒸馏(KD)和神经架构搜索(NAS)的上风,可以大概高效天生具有灵活结构和抱负性能的网络。 | Methods:
|
- 通过一个简朴网络迭代自顺应地修改其结构,使用来自西席网络的引导,直到达到资源预算。
- 引入了一个注意力模块,以将知识从西席网络转移到学生网络。
- 设计了一个拆分边缘方案,帮助学生模型找到最佳的宏观架构。
| Keyresults:
| 在CIFAR-10、CIFAR-100和ImageNet上的广泛实行表明,该框架在网络架构优化任务中取得了出色的性能。 | Code:
| Paper under double-blind review |
26.Structural Pruning Of Pre-Trained Language Models Via Neural Architecture Search(653)
Aim:
| 探讨基于权重共享的神经架构搜索(NAS)作为一种结构剪枝方法,旨在寻找经过微调的网络的子部门,以在效率(比方模型大小或延迟)与泛化性能之间取得最优权衡。 | Abstract:
| 预训练语言模型(PLM)标志着天然语言明确的最新程度。然而,它们的大尺寸在现实应用中的部署中带来了挑衅,由于显著的GPU内存需求和高延迟。本文探讨了基于权重共享的神经架构搜索(NAS)作为一种结构剪枝方法,目的是为了找到经过微调的网络的子部门,这些子部门在效率(比方模型大小或延迟)和泛化性能之间实现了最优的权衡。与传统具有固定阈值的剪枝方法不同,我们提出了一种多目标方法,可以识别帕累托最优的子网络集合,从而实现更灵活和自动化的压缩过程。我们的NAS方法在7个中的8个文本分类任务上,对经过微调的BERT模型实现了高达50%的压缩,同时性能下降不到5%。 | Conclusion:
| 与传统具有固定阈值的剪枝方法不同,提出了一种多目标方法,可以识别帕累托最优的子网络集合,从而实现更灵活和自动化的压缩过程。 | Methods:
| 采用多目标方法来识别最优的子网络集合,以实现对预训练语言模型(PLM)的高效压缩。 | Keyresults:
| 在7个中的8个文本分类任务上,对经过微调的BERT模型进行高达50%的压缩,同时性能下降不到5%。 | Code:
| Paper under double-blind review |
27.Swap-NAS: Sample-Wise Activation Patterns For Ultra-Fast NAS(686)
Aim:
| 提出一种名为SWAP-Score的新型高性能无需训练指标,基于样本级激活模式,用于解决现有无需训练指标在不同搜索空间和任务中的相关性有限和泛化性能差的题目。 | Abstract:
| 无需训练指标(又称零资本署理)广泛用于避免资源密集型的神经网络训练,特别是在神经架构搜索(NAS)中。最近的研究表明,现有的无需训练指标存在几个限定,如在不同搜索空间和任务中相关性有限和泛化性能差。因此,我们提出了一种基于样本级激活模式的新型高性能无需训练指标,名为SWAP-Score。它通过测量网络在一批输入样本上的表达力来评估网络性能。SWAP-Score在多种搜索空间和任务中与真实性能强相关,在NAS-Bench-101/201/301和TransNAS-Bench-101上凌驾了15种现有的无需训练指标。通过正则化可以进一步增强SWAP-Score,进步相关性并在搜索过程中实现模型大小控制。比方,在NAS-Bench-201网络上,正则化的SWAP-Score与CIFAR-100验证精度的Spearman品级相关系数为0.90,显著高于第二好的指标NWOT的0.80。当与进化算法团结用于NAS时,我们的SWAP-NAS在CIFAR-10和ImageNet上实现了竞争性能,分别仅需约6分钟和9分钟的GPU时间。
| Conclusion:
|
- SWAP-Score在多种搜索空间和任务中与真实性能强相关,凌驾了15种现有的无需训练指标。
- 通过正则化可以进一步增强SWAP-Score,进步相关性并在搜索过程中控制模型大小。
| Methods:
|
- SWAP-Score通过测量网络在一批输入样本上的表达力来评估网络性能。
- 引入正则化来进步指标的相关性,并在基于单元的搜索空间中实现模型大小控制。
| Keyresults:
|
- 在NAS-Bench-101/201/301和TransNAS-Bench-101上,SWAP-Score的性能凌驾现有的15种无需训练指标。
- 在NAS-Bench-201网络上,正则化的SWAP-Score与CIFAR-100验证精度的Spearman品级相关系数为0.90,显著高于第二好的指标NWOT的0.80。
- 当与进化算法团结用于NAS时,SWAP-NAS在CIFAR-10和ImageNet上实现了竞争性能,分别仅需约6分钟和9分钟的GPU时间。
| Code:
| Paper under double-blind review | 
28.Tafs: Task-Aware Activation Function Search For Graph Neural Networks(555)
Aim:
|
- 探索图神经网络(GNNs)中一个至关紧张但迄今为止较少被研究的方面——激活函数的设计。
- 开发一个名为TAFS(面向任务的激活函数搜索)的框架,专门用于为不同GNN应用量身定制激活函数。
| Abstract:
| 自图神经网络(GNNs)问世以来,大量研究工作集中在增强图卷积、精炼池化操纵、设计鲁棒的训练策略以及推进理论底子上。值得注意的是,当前GNN研究的一个关键方面仍然明显未被充分探索——激活函数的设计。激活函数作为关键组件,赋予GNNs进行非线性处理的基本本事。然而,修正线性单元(ReLU)的普遍使用仍然连续。在我们的研究中,我们着手开发面向任务的激活函数,为多样的GNN应用量身定制。我们引入了TAFS(面向任务的激活函数搜索),一个纯熟且高效的激活函数设计框架。TAFS使用流线型参数化方法,并将题目框定为双层随机优化挑衅。为了增强平滑激活函数的搜索,我们引入了额外的Lipschitz正则化。我们的方法自动化地发现最佳激活模式,并可以大概无缝地顺应任何下游任务。关键的是,这整个过程在不增长显著的盘算或内存开销的情况下端到端进行。全面的实行强调了我们方法的有用性。我们在包括节点分类在内的多种任务上取得了显著改进。此外,我们的方法在链接级任务中逾越了最新的研究结果,特别是在生物医学应用领域。 | Conclusion:
|
- TAFS通过简化的参数化方法并将题目框定为双层随机优化挑衅,高效地设计激活函数。
- 通过引入Lipschitz正则化,增强了平滑激活函数的搜索。
- 该方法自动化地发现了最佳激活模式,并可以大概无缝地顺应任何下游任务。
| Methods:
|
- TAFS使用流线型参数化,将激活函数设计题目框定为双层随机优化挑衅。
- 引入了Lipschitz正则化,以增强平滑激活函数的搜索效率。
| Keyresults:
|
- 在包括节点分类在内的多种任务上取得了显著改进。
- 在链接级任务,特别是生物医学应用中,逾越了最新的研究结果。
| Code:
| Paper under double-blind review |
29.Towards Neural Architecture Search Through Hierarchical Generative Modeling(6553)
Aim:
| 提出一种新方法,旨在通过使用最新的天生模型技术,镌汰神经架构搜索(NAS)对手动设计的搜索空间的依赖,以高效地探索极大的、通用的搜索空间。 | Abstract:
| 神经架构搜索(NAS)在自动化设计各种任务的深度神经网络方面越来越受接待。典型的NAS流程从人工设计的搜索空间开始,在这个过程中通过有条理的探索来帮助发现高性能模型。尽管NAS在许多情况下表现出色,但其强大的性能在很大程度上依赖于对好的设计的先验知识,这是通过精心设计搜索空间隐式地纳入到流程中的。通常,这种依赖性是不希望的,因为它限定了NAS对不太研究的任务的适用性,并/或导致得到强大结果所需资本的激增。在这项工作中,我们的目标是通过依靠最近在天生模型方面的进步来解决这个限定,我们提出了一种可以大概通过训练两级层次的天生模型高效导航一个非常大、通用的搜索空间的方法。第一级专注于微单元设计,使用条件连续正规化流(CCNF);随后一级使用基于变压器的序列天生器来产生针对给定任务和架构限定的宏观架构。为了使过程在盘算上可行,我们执行了基于图和零资本(ZC)相似性的度量空间的任务不可知预训练。我们在包括CIFAR-10、CIFAR-100和ImageNet模型在内的典型任务上评估了我们的方法,与其他低资本NAS方法相比,展示了开始进的性能。 | Conclusion:
|
- 通过训练两级层次的天生模型,该方法可以大概高效地导航一个非常大的、通用的搜索空间。
- 与其他低资本NAS方法相比,在典型任务(包括CIFAR-10、CIFAR-100和ImageNet模型)上展示了开始进的性能。
| Methods:
|
- 第一级专注于微单元设计,使用条件连续正规化流(CCNF);随后一级使用基于变压器的序列天生器来产生针对给定任务和架构限定的宏观架构。
- 为了使过程在盘算上可行,执行了基于图和零资本(ZC)相似性的度量空间的任务不可知预训练。
| Keyresults:
| 在包括CIFAR-10、CIFAR-100和ImageNet模型在内的典型任务上,与其他低资本NAS方法相比,展示了开始进的性能。 | Code:
| Paper under double-blind review |
30.Composing Recurrent
Aim:
| | Abstract:
| | Conclusion:
| 据作者所知,该研究初次进行了RSNNs的体系架构
| Methods:
| | Keyresults:
| | Code:
| Paper under double-blind review |
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |