qidao123.com技术社区-IT企服评测·应用市场

标题: 大型语言模型在网络安全范畴的应用综述 [打印本页]

作者: 火影    时间: 7 天前
标题: 大型语言模型在网络安全范畴的应用综述
简介

得益于大型语言模型(LLMs)的突破性进展,天然语言处理(NLP)在过去十年间实现了飞速发展。 LLMs 正徐徐成为网络安全范畴的一股强大力量,它们可以大概自动检测漏洞、分析恶意软件,并有效应对日益复杂的网络攻击。详细而言,LLMs 被广泛应用于软件安全范畴,可从代码和天然语言形貌中辨认漏洞,并生成相应的安全补丁。同时,LLMs 也被用于分析安全策略和隐私政策,帮助辨认潜在的安全违规举动。在网络安全范畴,LLMs 可以大概检测和分类各种类型的攻击,比方 DDoS 攻击和僵尸网络流量。此外,LLMs 还能根据文本报告和举动形貌分析恶意软件,检测恶意域名,并有效防御钓鱼攻击。总体而言,LLMs 通过处理和提取海量非布局化文本中的信息,从巨大数据库中学习模式,并生成相干的测试和训练样本,从而极大地提升网络安全实践的效率和效果,助力构建更加安全可靠的网络情况。
本报告基于一篇题为《Large Language Models for Cyber Security: A Systematic Literature Review》的系统文献综述,对 LLMs 在网络安全范畴的应用进行全面、深入的解析。报告起首介绍了 LLMs 的根本概念和发展历程,然后详细阐述了 LLMs 在软件和系统安全、网络安全、信息和内容安全、硬件安全、区块链安全等五大范畴的详细应用,并深入分析了差别 LLMs 架构(encoder-only、encoder-decoder、decoder-only)的特点和实用场景。报告还重点探究了 LLMs 应用于安全使命时所采用的范畴特定技术(如微调、提示工程、外部增强等)以及数据网络和预处理的方法。最后,报告总结了 LLMs 在网络安全范畴面临的挑衅,并预测了未来的研究方向和机遇。
论文所在:https://arxiv.org/html/2405.04760v3#S4
1. 弁言

1.1 背景与意义


1.2 LLMs 的根本概念


1.3 LLMs 在网络安全中的优势


1.4 报告目标

本报告旨在对 LLMs 在网络安全范畴的应用进行全面、深入的解析,详细目标包括:

2. 文献综述方法

本报告基于的系统文献综述采用了严格的流程来辨认、筛选和分析相干文献,以确保研究的全面性和客观性。
2.1 研究问题

文献综述围绕以下四个核心研究问题展开:

2.2 文献检索策略

在这个阶段,我们选择了六项顶级网络安全会议和期刊(即 S&、NDSS、USENIX Security、CCS、TDSC 和 TIFS),以及六项顶级软件工程会议和期刊(即 ICSE、ESEC/FSE、ISSTA、ASE、TOSEM 和 TSE)。
鉴于LLMs在研究中的新兴性质,我们还在手动和自动搜索中包括了 arXiv,以便捕捉这个快速发展的范畴中最新的未发表研究。
对于自动搜索,我们选择了七个广泛使用的数据库,即 ACM 数字图书馆、IEEE Xplore、Science Direct、Web of Science、Springer、Wiley 和 arXiv。这些数据库提供了计算机科学文献的全面覆盖,并且在该范畴的系统评价中经常被使用。
在这一步骤中,我们从细致筛选出的相干研究中创建了一份人工整理的研究集,以此形成 QGS。统共手动辨认出 41 篇与 LLM4Sec 相干的研究论文,这些研究论文与研究目标一致,并涵盖了各种技术、应用范畴和评估方法。
自动搜索的关键词是从所选 QGS 论文的标题和摘要中通过词频分析得出的。搜索字符串由两组关键词组成:
关键词相干:LLM大型语言模型, LLM, 语言模型, LM, 预训练, CodeX, Llama, GPT-*, ChatGPT, T5, AIGC, AGI。
与安全使命相干的关键词:网络安全、网页安全、网络通信安全、系统安全、软件安全、数据安全、程序分析、程序修复、软件漏洞、CVE、CWE、漏洞检测、漏洞定位、漏洞分类、漏洞修复、软件错误、错误检测、错误定位、错误分类、错误报告、错误修复、安全运营、隐私泄露、服务拒绝、数据污染、后门、恶意软件检测、恶意软件分析、勒索软件、恶意命令、模糊测试、渗透测试、钓鱼、敲诈、诈骗、取证、入侵检测。
找到的关键词逐一配对,并输入到上述七个广泛使用的数据库中进行自动化搜索。我们的自动化搜索集中在 2019 年及之后发表的论文,由于 GPT-2 的发布标志着大型语言模型发展中的一个紧张里程碑。搜索在每篇论文的标题、摘要和关键词字段中进行。详细来说,应用搜索查询和年份过滤(2019-2023)后,从每个数据库中检索到的论文数量如下:ACM 数字图书馆 3,398 篇,IEEE Xplore 2,112 篇,Science Direct 724 篇,Web of Science 4,245 篇,Springer 23,721 篇,Wiley 7,154 篇,arXiv 3,557 篇。
2.3 文献筛选标准


终极,这篇综述筛选并分析了 127 篇符合标准的论文。

3. LLMs 在网络安全范畴的应用

本节将详细介绍 LLMs 在网络安全范畴重要方向的详细应用。

3.1 软件和系统安全 (Software and System Security)

软件和系统安全是 LLMs 应用最广泛的范畴,涵盖了从漏洞检测到恶意软件分析的各种使命。

3.2 网络安全 (Network Security)

LLMs 在网络安全范畴的应用重要集中在流量分析、入侵检测、威胁谍报等方面。

3.3 信息和内容安全 (Information and Content Security)

LLMs 在信息和内容安全范畴的应用重要集中在虚假信息检测、有害内容辨认等方面。

3.4 硬件安全 (Hardware Security)

LLMs 在硬件安全范畴的应用相对较少,重要集中在硬件漏洞检测和修复方面。

3.5 区块链安全 (Blockchain Security)

LLMs 在区块链安全范畴的应用也相对较少,重要集中在智能合约安全和交易异常检测方面。

4. LLM类型被用于支持网络安全使命

本节将深入分析差别 LLMs 架构的特点和实用场景,并探究它们在网络安全使命中的应用情况。

4.1 Encoder-only LLMs


4.2 Encoder-decoder LLMs


4.3 Decoder-only LLMs


4.4 趋势分析 (Trend Analysis)


时间线与趋势演变

2020-2021



2022



2023-2024



架构使用趋势与社区偏好



应用模式

基于代理的处理


针对特定使命的微调



5.使 LLM 顺应安全使命的范畴规范技术

本节将详细介绍 LLMs 应用于安全使命时所采用的范畴特定技术,包括微调、提示工程和外部增强。
5.1 微调 (Fine-tuning)


微调是 LLMs 应用于下游使命的常用技术,通过在特定使命的标注数据上对 LLMs 进行训练,使其顺应特定使命的需求。

5.2 提示工程 (Prompt Engineering)

提示工程是通过计划合适的提示(prompt)来引导 LLMs 生成特定类型的输出。提示工程是 LLMs 应用于安全使命的关键技术,特殊是对于数据特征有限的安全使命。

5.3 外部增强 (External Augmentation)

外部增强是通过结合外部知识、工具或模型来增强 LLMs 的能力。


将从原始数据中提取的上下文关系或其他隐含特征与原始数据一起整合到提示中,比方:漏洞形貌、bug位置、威胁流程图等。

从外部知识库(如安全文档、漏洞数据库等)中检索与使命相干的信息,作为 LLMs 的输入。
比方:网络威胁谍报的外部布局化语料库、用于修复模式发掘的混合补丁检索器。

利用专门工具(如静态分析工具、符号执行工具、渗透测试工具等)的分析结果作为 LLMs 的辅助输入。
比方: 静态代码分析工具、渗透测试工具。

采用差别的训练策略(如对比学习、迁移学习、强化学习、蒸馏等)来增强模型对使命的顺应性。
比方: 对比学习、迁移学习、强化学习、蒸馏。

引入多个模型(可以是 LLMs 或其他模型)进行协作和交互,共同完成使命。
比方: 多个LLM反馈协作、图神经网络。

实用于多步使命,将每个步骤的输出结果作为下一步的提示的一部分,进行迭代。
比方:基于难度的补丁示例重播、变量名称传播。

对 LLMs 的输出进行定制化处理,以满意特定使命的需求,如格式转换、错误校正、结果过滤等。
比方:基于Levenshtein距离的后处理以减轻幻觉、对生成的代码进行形式验证。
6. LLM 应用于安全使命时,数据网络和预处理有何差别

本节将探究 LLMs 应用于安全使命时的数据网络和预处理方法。
6.1 数据网络 (Data Collection)

数据在 LLM 训练中起着不可或缺的关键作用,影响模型的泛化能力、有效性和性能 。充足、优质、多样化的数据对于模型全面理解使命特征和模式、优化参数、保证验证和测试的可靠性至关紧张。起首,我们探究了数据集的获取技术。通过对数据网络方法的考察,我们将数据源分为四类:开源数据集、网络的数据集、构建的数据集和工业数据集。


6.2 数据类型 (Data Types)

LLMs 在网络安全范畴使用的数据类型重要包括:

研究表明,大多数研究依赖于基于代码的数据集,这凸显了 LLMs 在代码分析方面的优势。然而,文本数据在网络安全范畴也扮演着紧张的脚色,如安全报告、威胁谍报、日记分析等。
6.3 数据预处理 (Data Pre-processing)

数据预处理是 LLMs 应用于安全使命的关键步骤,其目标是将原始数据转换为得当 LLMs 处理的格式,并进步数据的质量。

数据预处理的详细步骤和方法取决于数据类型、安全使命和 LLMs 的特点。
7. 挑衅与机遇

只管 LLMs 在网络安全范畴取得了明显进展,但仍面临着一些挑衅,同时也存在着巨大的发展机遇。
7.1 挑衅


7.2 机遇


7.3 研究门路

网络安全办理方案自动化(自动化)



将安全知识融入大型语言模型课程(RAG)



安全代理:集成外部增强与 LLM(Agent)



用于安全的多模态大型语言模型 (多模态)



大型语言模型的安全性 (Security4LLM)


8. 总结与预测

LLMs 的出现为网络安全范畴带来了革命性的变革,其强大的天然语言理解和生成能力为办理各种安全问题提供了新的思绪和工具。本报告基于一篇系统文献综述,全面、深入地解析了 LLMs 在网络安全范畴的应用现状、挑衅和机遇。

总之,LLMs 在网络安全范畴具有巨大的潜力,但仍需要降服一系列挑衅。未来的研究应致力于进步 LLMs 的安全性、可靠性和可表明性,并将其应用于更广泛的网络安全场景,以构建更安全、更智能的网络空间。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/) Powered by Discuz! X3.4