IT评测·应用市场-qidao123.com技术社区

标题: 20241013组会 [打印本页]

作者: 自由的羽毛    时间: 2024-10-13 17:20
标题: 20241013组会
文章:A learnable end-edge-cloud cooperative network for driving emotion sensing

弁言:
驾驶员的感情状态直接影响安全驾驶。在“车-人-路-云”一体化控制框架下,我们提出了一种端-边-云协同感情感知网络模型(EEC-Net)。端侧提取司机人脸视频流的关键帧,并进行批量压缩;边沿侧提取重建图像的感爱好区域 (ROI) 作为感情识别模型 (tiny_Xception) 的输入进行分类;云控端吸收到异常的 ROI 图像数据,进行在线训练,动态调整边沿模型的运行参数。最后,我们在开放和自建的数据集上进行了测试,结果表明tiny_Xception的准确率与 mini_Xception 相比显著提高了 2.45%;EEC-Net 模型可以或许可靠地感知负面感情周期,整体系统内存消耗低落约 5%,网络传输数据量和感情识别的计算时间分别低落 95%、60%。
1.先容

驾驶员感情分析在安全驾驶中起着至关紧张的作用。由于其在人机交互中的潜在应用,它引起了越来越多的关注,人机交互可以或许识别主要驾驶员的感情并根据他们的面部感情调整他们的行为。研究表明,在现有的交通事故原因分析中,驾驶员的人为因素占 90% 以上 [1]。在驾驶员的人为因素中,“路怒症”是根本原因之一。约莫 60% 的机动车司机因在交通拥堵中驾驶的压力和挫败感而患上“路怒症”,这带来了越来越严峻的交通安全标题。由“路怒症”引起的攻击性驾驶行为已成为影响交通秩序和安全驾驶的紧张因素。因此,识别驾驶员感情的研究对于维护交通安全具有紧张意义。
为相识决大数据量下驾驶员感情识别的准确性和实时性标题,研究职员利用不同的电子设备来捕获通过外部信号传达的感情。随着硬件技能的发展,它变得更轻易得到反映人类感情的信号,例如面部视频序列、声波和脑电图 (EEG) 信号 [2]。其中,面部表情最能直观地反映人的感情状态和心理活动,是表达感情必不可少的 [3]。面部表情在感情识别任务中非常可靠;别的,使用计算机识别表达式具有独特的上风。无论动作有多快,在相机客观捕获的环境下,计算机都能获取相应的信息并进行处置惩罚。通过将面部感知数据与高效稳定的模型相结合,计算机可以低本钱处置惩罚大规模的感情识别任务,远超专业人士人工识别感情的效率。驾驶员的面部识别会主动与驾驶员的身份证件 (ID) 账户网站相匹配。检索上一阶段设置的主动座椅调节、中控显示样式等个性化设置。在驾驶过程中,当检测到驾驶员的路怒表情时,系统可以主动警告驾驶员。长时间主动驾驶识别驾驶员的疲劳状态。结合行程推荐可行的服务区域和停车场信息,确保全程安全驾驶。
在驾驶汽车的相关技能中,感知信息是辅助驾驶做出各种行为决策和活动控制的底子。通过获取充分、准确、可靠的感知信息,辅助驾驶可以做出安全公道的驾驶决策。智能网联汽车依赖各种传感器进行信息感知。通过分析感知数据,可以及早发现驾驶员的异常活动,从而显著提高驾驶安全性。传统上,车载摄像头捕获的视频流会完备上传到远程数据中心,究竟证明,远程数据中心在配置资源以进行进一步处置惩罚方面非常机动高效 [4]。但是,这将使网络承担从移动用户到远程数据中心的数据聚合的负担,从而通过分析感知数据显著增加任务处置惩罚的响应时间。响应时间对于分析驾驶过程中的感知数据非常紧张。在智能网联交通新架构下,将智能计算从车载终端转移到边沿节点,可以有效低落车载终端的计算压力和能耗,促进智能网联汽车的高效决策、协同管理和安全控制。
与其他感知信息相比,相机拍摄数据中的感知信息每每更加丰富和直观,在信息感知中起着至关紧张的作用。因此,视频数据是智能网联汽车在进行驾驶员面部感情识别时感知的主要数据类型。在现实应用中,车载摄像头通常具有固定的安装位置、稳定的车载电源和稳定的拍摄角度。它们非常适合作为智能网联汽车中驾驶员的面部信息感知节点 [5]。但是,随着摄像机分辨率的提高,摄像机每秒天生的视频数据会急剧增加。汽车中的单个高清摄像头天生的数据量可以达到每秒数十兆字节。实时视频数据处置惩罚对车载感情识别终端提出了巨大的计算和存储要求。无线网络可以连接来自许多车辆的并行视频数据,因此上行链路造成了传输瓶颈。别的,车辆的高速活动会导致无线链路信道环境的动态变革。海量数据的视频传输也会增加无线传输失败的概率,影响感情识别系统的运行稳定性。
基于上述标题,本文旨在整合边沿计算架构,提高单车和多车场景下驾驶员感情的识别准确率和处置惩罚效率,减少网络传输数据量和系统资源消耗,进一步构建智能车辆安全辅助驾驶系统,帮助制定有效的主动安全控制策略。我们提出了一种端边云协作感情感知网络模型 (EEC-Net)。通过对车载摄像头感知的视频流数据进行一系列优化处置惩罚,可以准确获取驾驶员的路怒感情。EEC-Net 模型的性能在开放和自建数据集上进行测试和评估。实验结果表明,EEC-Net模型的性能远优于传统的驾驶员感情识别模型。本文的主要贡献可以总结如下。

本文的别的部分布局如下。第 2 节概述了边沿计算和深度学习的一些研究以及与感情识别相关的一些方法。第 3 节提供了包括关键帧提取算法、图像压缩算法、ROI 特征提取和感情感知学习优化建模在内的方法。我们在第 4 节中先容了实验结果以评估所提出的方法,最后,在第 5 节中,我们总结了本文。
相关工作

更多的研究旨在通过移动边沿计算协作来满意处置惩罚感知数据的延迟要求。**将深度学习与边沿计算相结合,可以显著低落数据传输过程中的数据传输延迟,提高车联网系统的稳定性。**因此,端边云协同计算对于提高智能网联汽车 (ICV) 的驾驶安全性具有紧张意义。传统的集中管理平台建立方案主要是通过网络将所有数据上传到云计算中心,并利用云计算中心的超算本领集中解决应用的计算需求 [6]。然而,传统的集中式处置惩罚模式在万物互联的背景下存在许多不足。起首,随着边沿设备数量的增加,天生的数据量也激增,导致网络带宽逐渐成为云计算的一部分。其次,随着用户应用数量的增加,未来大型数据中心的能耗需求将难以满意。随着车-路-云协同技能的发展,越来越多的研究集中在通过 MEC 协同满意处置惩罚感知数据的时延需求上。将深度学习与边沿计算相结合可以显著减少传输数据所需的时间。因此,可以提高车联网系统的安全性 [7]。一些研究职员对国表里的边沿计算和深度学习进行了具体的研究。Guill ́en 等人 [8] 使用深度学习来评估边沿计算平台的性能,该平台用于预测农业低温,从而为物联网底子设施提供计算资源,而无需添加任何计算资源。Chen 等 [9] 利用全球定位系统 (GPS) 数据集建立了堆栈去噪自编码器的深度模型,提取并利用职员的移动性来预测交通事故风险,并有效集成边沿计算和深度学习,提供交通事故风险的早期预警。
关于感情识别和分类的研究已经存在一系列。传统的感情识别和分类研究主要包括基于视频图像序列和静态图像的感情识别。Sikka等[10]将视频事件建模为子事件,并应用弱监视学习方法与多个面部特征相结合来预测面部表情、疼痛和意图,以视觉方式表示面部表情的变革。Gao et al. [11] 提出了一种基于开源计算机视觉 (OpenCV) 的面部表情识别方法。该方法通过级联分类器对视频流图像各个位置的各种特征进行窗口检测,得到视频流人脸检测图像,并进行图像预处置惩罚。Azman等[12]应用了支持向量机和Viola-jones haar特征算法来监测驾驶员的面部表情。一旦检测到驾驶员持续生气 3 秒,就会发出警报。Breuer 和 Kimmel [13] 使用卷积神经网络 (CNN) 构建了在各种特征提取和缩减 (FER) 数据集上学习的模型,并展示了训练网络进行跨数据集和各种 FER 相关任务的感情检测的本领。Verma等[14]提出了一种感情的动态表示,将视频的面部活动信息保存在一帧中,结合横向积累混合网络来捕获面部表情的微观特征,从而提高模型的准确性。Zhao et al. [15] 提出了一种针对面部特征点的编码策略,利用卷积图网络充分发掘了不同表情背后面部身分的布局信息,并进一步应用于全脸观察,学习不同表情的全局特征,以推动网络关注信息量最大的面部区域和身分, 在所提出的框架中引入了多级留意力机制,这提高了有效 FER 学习表示的可靠性。Zhang等[16]建议使用大量噪声标志数据来提高在一小组干净标签上训练的FER分类器的性能,提供一种新的姿态建模网络,以自适应地捕获人脸图像深度表示的差异和不同头部下的姿态空间。Jain等[17]提出了一种多角度最优模式深度学习(MAOP-DL)方法,通过使用基于多角度的最优配置来纠正照明变革标题并找到特征集的正确对齐方式;从图像中减去背景和分离前景,然后提取相关关键特征。然后有选择地提取相关特征,并使用长短期记忆卷积神经网络 (LSTM-CNN) 来预测面部表情所需的标签。Chowdary等[18]提出使用一种基于迁移学习的方法,去掉预训练的ConvNet的全连接层,增加一个适合感情识别任务数量的全连接层。Schoneveld等[19]提出了一种模型级融合策略,该策略融合了音频和视觉模式的深度特征表示,然后使用递归神经网络来捕获时间动态以进行感情识别。Said 和 Barr [20] 提出了一种用于人类感情识别的人脸敏感卷积神经网络 (FS-CNN)。FS-CNN 由补丁裁剪和卷积神经网络组成,用于裁剪高分辨率图像人脸并根据特征分析预测面部感情。

在众多基于深度学习的方法中,一些代表性的作品如表 1 所示。
在智能网联交通系统的新架构下,需要进一步发展该技能体系下的面部表情识别框架,并进行框架建立和技能验证。以上很多研究工作都是对每一帧视频进行检测的,但是当单帧识别率较低时,整体检测会失败。以上部分都依赖于已有的数据集。数据集中的图像序列已经提前进行了分割,因此算法只需要完成模式识别的检测和分类,并不能满意现实任务需求。因此,本文提出了一种端边云协同感情感知网络模型EEC-Net,该模型融合了边沿计算架构,促进了区域多车辆驾驶员表情的分布和高效识别。
3. EEC-Net 模型设计

根据中国智能网联汽车财产同盟发布的车-路-云一体化控制系统框架,路侧单元(RSU)对道路上的智能网联汽车进行无线覆盖,每个RSU都连接到路侧多接入边沿计算(MEC)平台。在此技能体系下,本文提出了一种驱动感情感知的可学习端边云协作网络 EEC-Net。为了指定所提出的 EEC-Net 方法,我们在图 1 中说明白 EEC-Net 的框架。用于驾驶感情感应的可学习端 edgecloud 协同网络,分为驾驶员人脸感知模块、边沿识别模块、云端在线训练模块。车载摄像头对驾驶员进行人脸感知,进行周期性的人脸视频采集、视频流关键帧提取、图像压缩编码和数据传输;边沿识别吸收图像编码数据,并使用集成到 ROI 特征提取中的感情识别模型来识别和分析面部特征。云端吸收边沿服务器识别的异常人脸 ROI 图像数据,在线训练,并发布优化后的感情参数感知学习模型传递给边沿服务器,确保边沿服务器动态调整感情感知学习模型的工作参数。最后,EEC-Net 通过端边云学习模型协同机制,提升车载视频检测和云控制系统的动态服务性能。

3.1. 视频流关键帧提取算法

在现实的驾驶员感情识别场景中,实时采集驾驶员面部的视频流,转化为一连的图像帧序列,并交付给部署在云平台上的深度学习模型进行集中识别和分类。由于驾驶员的面部表情变革和长期不变的表情循环,视频流中可能存在大量相似的帧。假如将这些相似的帧上传到云端进行识别和分类,会增加网络传输的压力,造成服务器计算、存储、内存占用等资源的浪费。因此,对于感情识别场景,不需要处置惩罚视频流中的每一帧,只需处置惩罚变革较大的关键帧即可完成感情识别任务。本文选取视频流中局部变革较大的关键帧作为网络的输入,并将关键帧的感情分布作为驾驶员路怒感情识别的判断依据。当驾驶员的面部表情或动作变革较大时,视频流中相邻帧之间的灰度值会存在较大差异,因此提出了一种基于帧间差异的关键帧提取方法;这种方法的主要头脑是进行两帧或三帧一连时间的差分运算。将红绿蓝 (RGB) 真彩图像转换为灰度图像后,不同帧的相应像素出现差异,并使用局部最大值选择关键帧,以过滤掉大部分冗余帧。与深度学习算法相比,帧差算法占用资源少,耗时短,精度衰减小。
关键帧提取过程包括以下步调:1 、输入视频流数据;2、对前后帧图像进行预处置惩罚,并进行灰化和高斯滤波;3、计算相邻帧之间的像素差值;4 、引入 smoothing 参数,使峰值更加明显;5、根据 Maximum Local 值提取 DIFFERENCE 值作为关键帧。
3.2. 改进的 Huffman 堆排序图像重建算法

在 EEC-Net 中,边沿侧需要持续吸收车载设备长时间传递的驾驶员人脸图像数据,以及大量数据进行感情识别,这对服务器的内存、计算、存储等性能构成了巨大挑战。因此,在车联网范畴,图像无损压缩技能变得必不可少。为了包管压缩和重建的图像不会影响感情识别任务的准确性,需要在不损失图像质量的环境下减小图像数据量。霍夫曼编码作为无损压缩的一种方式,在算法复杂度和压缩效率方面优于其他压缩方法。考虑到感情识别任务场景的实时性要求,进一步提高图像压缩重建的处置惩罚速度,该文将传统的霍夫曼图像压缩算法与堆排序算法相结合。我们提出了一种基于堆排序的改进霍夫曼图像压缩算法hs_Huffman,在包管无损压缩的底子上提高了图像压缩的速度。hs_Huffman主要改进了霍夫曼代码天生的霍夫曼树构建中的排序方法,将整个字符串的通用排序算法改为堆排序,采用堆排序选择源符号概率最低的两个节点,并天生新的概率节点添加到序列中进行排序并再次选择。
hs_Huffman算法的过程包括以下步调:1 ,提取关键帧图像的信息源符号和信息源符号的概率;2,根据概率约束为信息源符号创建一个堆,将堆调整为一个小的根堆,并取出堆顶部的最小数据;3,选择两个概率最小的信息源符号来构建最优霍夫曼树;4,天生一个新的概率节点加法序列,表示两个概率的和;5 ,重复步调 1 到步调 4,直到霍夫曼树的构建完成;6、根据原始路径回溯重建图像。改进的 Huffman 堆排序图像压缩如算法 2 所示。
3.3. 驾驶员面部感爱好区域提取

当使用 EEC-Net 识别驾驶员的感情时,由于在不同感情下拍摄的同一个人的面部图像包含雷同的特征,如鼻子、耳朵和脸型,这些不相关的特征会减弱关键特征对数据的影响,如嘴巴、眼睛和眉毛,导致 EEC-Net 感情识别的准确性低落。在本文中,我们考虑将驾驶员面部图像中的感爱好区域作为输入网络的主体,用于图像识别研究和实验。假如由于驾驶员头部偏移导致无法正确识别人脸的 ROI 特征区域,此类异常的人脸 ROI 图像数据将被传送到云端进行处置惩罚。别的,为了避免干扰造成的误检测结果,一些检测到的尺寸较小或长度和宽度不平衡的图像被丢弃。
3.4. 感情感知学习优化的建模

利用云计算和边沿计算的协同上风,高效识别大规模 ROI 图像数据并反馈路怒症。在云端,吸收边沿服务器识别出的异常人脸 ROI 图像数据,在线训练tiny_Xception模型,并将优化后的感情感知学习模型参数发布到边沿服务器,以便边沿服务器动态调整感情感知学习模型的运行参数,提高 EEC-Net 感情识别准确率。CNN 深度学习的持续发展改进了架构,以实现更准确的图像分类技能。同样,tiny_Xception架构是根据几个根本概念开发的,包括卷积层、深度可分离卷积层和初始模块。别的,CNN 架构中的激活函数是必要的,其中 H-Swish 是一种新的激活函数,旨在改进传统的激活函数。本节先容了 ROI 的深度可分离卷积过程、tiny_Xception架构以及用于驾驶员感情识别的图像分类模型的 h-swish 激活函数的新修改。
3.4.1. 深度可分离卷积层

tiny_Xception 中的深度可分离卷积结合了深度卷积和点卷积,以减少颜色通道空间和深度维度的计算和建模参数。

这是通过创建与 1 × 1 的卷积核大小来更深入地分别传统卷积过程,将深度卷积与点卷积相关联,从而操纵图 3 所示的深度可分离卷积。tiny_Xception的深度可分离卷积,包括相对于 1 × 1 点卷积的 RGB 颜色的每个颜色通道的 3 × 3 个滤镜。深度卷积为输入数据集 M 的每个通道天生一个滤波器,并使用输入通道的一个滤波器天生特征图,该滤波器计算确定 DF × DF × M 和深度卷积。
知识积累

1.什么是Mini-Xception网络

Mini-Xception 是一种基于 Xception 网络的轻量化深度神经网络架构,专为需要高效计算资源的应用场景设计,如移动设备上的实时人脸表情识别、边沿计算等。它继续了 Xception 网络的主要头脑,但通过减少网络层数和参数量来实现更好的性能与计算效率的平衡。
背景知识:

Xception 网络全称为 Extreme Inception,它是 Inception 网络的扩展版。Inception 网络采用了多个卷积核尺寸的组合来处置惩罚输入数据,但 Xception 引入了 深度可分离卷积(Depthwise Separable Convolution),将标准卷积操纵分为 深度卷积(Depthwise Convolution)逐点卷积(Pointwise Convolution)。这种分解减少了参数量,提高了网络的计算效率。
Mini-Xception的特点:

Mini-Xception网络的应用:

Mini-Xception网络布局示例:

以下是一个典型的 Mini-Xception 网络布局简要示例:
  1. def mini_xception(input_shape):
  2.     inputs = Input(shape=input_shape)
  3.    
  4.     # Entry flow: First convolution layer
  5.     x = Conv2D(8, (3, 3), strides=(1, 1), padding='same')(inputs)
  6.     x = BatchNormalization()(x)
  7.     x = Activation('relu')(x)
  8.    
  9.     # Depthwise separable convolution blocks
  10.     for filters in [16, 32, 64]:
  11.         x = SeparableConv2D(filters, (3, 3), padding='same')(x)
  12.         x = BatchNormalization()(x)
  13.         x = Activation('relu')(x)
  14.         x = MaxPooling2D(pool_size=(2, 2))(x)
  15.    
  16.     # Fully connected layers
  17.     x = GlobalAveragePooling2D()(x)
  18.     x = Dense(64, activation='relu')(x)
  19.     x = Dense(num_classes, activation='softmax')(x)
  20.    
  21.     model = Model(inputs, x)
  22.     return model
复制代码
总结:

Mini-Xception 网络通过采用深度可分离卷积、大幅简化网络布局等方式,在包管良好准确率的同时显著减少计算量和参数量,适合在资源受限的设备上进行高效的实时应用,如人脸表情识别、移动设备视觉处置惩罚等。
2.数据集 CASME II 、 Fer2013 的先容

CASME IIFER2013 是两个常用于感情分析和面部表情识别的著名数据集。它们各自有不同的特点,广泛应用于计算机视觉和感情计算的研究中。以下是这两个数据集的具体先容:
1. CASME II

全称:Chinese Academy of Sciences Micro-Expression II
用途:微表情识别
数据集概述

CASME II 是一个专注于微表情识别的高质量数据集,由中国科学院心理研究所发布。它包含了自发的、经过标注的微表情视频,这些视频通过捕获被试在观看特定感情刺激时的表情变革来得到。
特点


数据格式


应用场景

CASME II 广泛应用于微表情分析、感情计算、心理学研究和安全监控等范畴,特别是用于识别短暂、难以觉察的表情变革。

2. FER2013

全称:Facial Expression Recognition 2013
用途:面部表情识别
数据集概述

FER2013 是在 2013 年的 Kaggle 比赛中发布的用于面部表情识别的公开数据集。该数据集包含了大量标注的面部图像,旨在推动面部表情识别任务的希望。
特点


数据格式


应用场景

FER2013 主要用于深度学习范畴的面部表情识别任务,常用于训练卷积神经网络(CNN)模型,尤其适合用于表情分类、感情分析等任务。由于它包含大量的图像,它也是一个适合训练深度神经网络的大规模数据集。

数据集的对比


总结来说,CASME II 强调高帧率的微表情分析,而 FER2013 提供了大量低分辨率的静态图像用于表情分类,两者各有不同的应用场景。
3.学会自建数据集(待学习)

4.深度学习和边沿计算相结合

深度学习和边沿计算相结合 是近年来非常热门的研究方向。随着物联网(IoT)、智能设备和5G技能的发展,越来越多的应用需要在边沿设备上进行实时处置惩罚,如主动驾驶、智能家居、无人机、工业监控等场景。这种结合可以或许解决传统云计算的一些标题,例如延迟、带脱期制和隐私安全标题。
1. 边沿计算概述

边沿计算 是指在靠近数据源的地方进行计算和数据处置惩罚,而不是将所有数据传输到中央服务器或云端处置惩罚。这样可以减少数据传输的延迟、低落带宽需求,并提高系统的响应速度。
边沿计算的上风:


2. 深度学习与边沿计算结合的必要性

深度学习 是当前最为有效的人工智能技能之一,广泛应用于图像识别、语音识别、天然语言处置惩罚等任务。然而,深度学习模型每每需要大量的计算资源和存储空间。传统上,这些深度学习任务大多依赖于云端服务器的强大计算本领。
然而,随着边沿计算的发展和需求,深度学习模型在边沿设备上进行推理或甚至训练成为一种新趋势。这种结合带来了许多上风:
主要动机

3. 结合的技能挑战

将深度学习与边沿计算相结合并非易事,主要面对以下几个挑战:
模型大小和计算资源限定


功耗


模型优化


网络连接不稳定


4. 典型应用场景

1. 主动驾驶

主动驾驶汽车必须实时分析环境信息,包括行人、车辆、交通标志等,这要求在汽车的边沿设备(如摄像头、雷达传感器等)上运行深度学习模型进行实时分析。边沿计算的低延迟上风可以或许确保汽车在快速变革的环境中做出及时反应。
2. 智能家居

智能家居中的边沿设备(如智能音箱、摄像头、门锁等)通常依赖于深度学习来识别用户的语音下令、监控家庭安全等。这些设备需要在本地处置惩罚大量的数据,尤其是涉及用户隐私的数据。
3. 工业物联网

在工业4.0背景下,工厂中的传感器和摄像头天生大量数据,实时监测设备状态、检测产品缺陷等。这些数据可以直接在边沿设备上处置惩罚,避免了数据传输的延迟和带宽瓶颈。
4. 无人机

无人机常用于农田监测、交通监控、灾害管理等场景。这些任务中,无人机需要进行实时图像识别和决策,而不能完全依赖远程服务器的计算本领,因此需要在边沿端运行深度学习模型。
5. 未来方向


总结

深度学习与边沿计算的结合 实现了在资源受限的边沿设备上运行复杂的AI任务,提供了低延迟、高隐私和实时性处置惩罚的上风。虽然面对计算资源和功耗的挑战,但通过模型优化、硬件加速和创新算法,深度学习将在边沿计算范畴发挥越来越紧张的作用。
5.路测单元(RSU)

路侧单元(RSU,Roadside Unit) 是智能交通系统(ITS)中紧张的底子设施组件,通常安装在道路旁边,用于支持车联网(V2X, Vehicle-to-Everything)通信。RSU 是智能网联交通环境下的关键设备之一,可以或许与车辆、交通控制系统以及云平台等进行数据交互。
RSU的主要功能:

RSU的应用场景:

RSU的技能要求:


RSU 是实现智能网联车辆、智能交通系统和聪明城市的紧张组成部分,通过车路协同和边沿计算等技能,RSU有助于提升交通安全、减少拥堵并推动主动驾驶的广泛应用。
6.使用h-switch激活函数代替原有的RELU激活函数

使用简化的h-swish(Hard-Swish)激活函数替代传统的ReLU激活函数是一种优化深度神经网络性能的策略,尤其是在移动设备等计算资源有限的环境中。h-swish是一种改进的非线性激活函数,它与Swish激活函数雷同,但在计算复杂度上有所简化。
1. ReLU激活函数

ReLU(Rectified Linear Unit)的定义如下:
                                    f                         (                         x                         )                         =                         max                         ⁡                         (                         0                         ,                         x                         )                              f(x) = \max(0, x)                  f(x)=max(0,x)
虽然ReLU简单且有效,但它有以下标题:

2. h-swish激活函数

Hard-Swish (h-swish) 是一种基于 Swish 的近似版本,计算更高效,定义如下:
                                    h-swish                         (                         x                         )                         =                         x                         ⋅                                              min                               ⁡                               (                               max                               ⁡                               (                               x                               +                               3                               ,                               0                               )                               ,                               6                               )                                      6                                       \text{h-swish}(x) = x \cdot \frac{\min(\max(x + 3, 0), 6)}{6}                  h-swish(x)=x⋅6min(max(x+3,0),6)​
大概可以简化为:
                                    h-swish                         (                         x                         )                         =                         x                         ⋅                                              ReLU6                               (                               x                               +                               3                               )                                      6                                       \text{h-swish}(x) = x \cdot \frac{\text{ReLU6}(x + 3)}{6}                  h-swish(x)=x⋅6ReLU6(x+3)​
其中,ReLU6 是将输入值限定在 [0, 6] 的 ReLU 函数。
相比于标准的 Swish 函数:
                                    Swish                         (                         x                         )                         =                         x                         ⋅                         σ                         (                         x                         )                              \text{Swish}(x) = x \cdot \sigma(x)                  Swish(x)=x⋅σ(x)
其中,                                   σ                         (                         x                         )                              \sigma(x)                  σ(x) 是 Sigmoid 函数。Swish 的计算需要 Sigmoid,这在资源受限的环境中计算较为复杂。而 h-swish 用更简单的操纵来近似 Swish 函数,从而大大低落了计算本钱。
3. 为什么选择 h-swish 替代 ReLU?


4. 实现 h-swish 激活函数

在大多数深度学习框架(如 TensorFlow 或 PyTorch)中,h-swish 可以轻松实现。以 PyTorch 为例:
  1. import torch
  2. import torch.nn as nn
  3. class HSwish(nn.Module):
  4.     def forward(self, x):
  5.         return x * torch.relu6(x + 3) / 6
  6. # 替换 ReLU 为 HSwish
  7. model = nn.Sequential(
  8.     nn.Linear(128, 64),
  9.     HSwish(),
  10.     nn.Linear(64, 10)
  11. )
复制代码
通过替换 ReLU 为 h-swish,网络模型在性能和计算效率上可以取得更好的平衡,尤其是在资源受限的设备上(如手机、嵌入式设备等)。
5. 现实应用

h-swish 已被应用于 MobileNetV3 等轻量级网络中,实验证明它可以或许显著减少推理时间,提升模型的整体性能。
总结

在计算资源有限的场景中,h-swish 激活函数是 ReLU 的良好替代选择,它通过简化 Swish 的计算方式,提供了更平滑的非线性特性,同时保持了高效的计算性能。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4