大模型:合成数据、安全挑战与知识注入

打印 上一主题 下一主题

主题 515|帖子 515|积分 1545

在如今这个快速发展的AI期间,大语言模型(LLM)的研究论文数量呈指数级增长,几乎到了人力无法一一阅读和消化的地步。然而,对这些研究成果的归纳和总结至关告急,因为它们刻画了LLM范畴的未来发展轮廓。在近期的LLM研究中,有三个趋势尤为引人注目:

  • 合成训练数据 :利用LLM生成它们自己的训练数据一直是一个热门话题。现在这个话题在AI研究界引发了极大的关注,一些重点研究如下:
  1. 1. 在"Improving text embeddings with large language models"的论文中,作者们展现了如何 **只通过合成数据和不到1000步的训练步骤,就能得到高品质的文本嵌入模型** ;
  2. 2. "Beyond human data: Scaling self-training for problem-solving with language models" - 数学和编程问题可以通过合成数据模式轻松生成并进行验证,进而用这些数据来提升大语言模型的表现;  
复制代码
![](https://img-
blog.csdnimg.cn/img_convert/96025e7787bcef07b96f43302ad0a3fd.png)

  • LLM的安全性 :自从 GPT-2 被提出后,安全摆设就成为LLM开发中的首要使命(例如出于安全担心,GPT-2 的模型权重并未公开发布)。固然如今AI社区似乎更乐意在摆设 LLM 时担当肯定的风险,但安全题目依然是许多研究实行室的重中之重。最近的研究表明,确保 LLM 安全摆设的难度极高:
  1. 1. 根据"Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training"这篇论文,即便LLM经过了广泛的安全调教,被提前训练进模型中的后门攻击仍然能留存下来,只是等待被特定的指令触发后就能做出恶意行为,例如生成一段黑客攻击代码。如果用间谍来做类比,就是一个所谓的“沉睡间谍”,普通情况看是一切正常的,直到被指令激活。可以参考下图:  
复制代码
![图片](https://img-
blog.csdnimg.cn/img_convert/c85148bdfe563985aeb6e06cf1631ecc.png)
  1. 2. "Scalable extraction of training data from (production) language models"这篇论文中,通过合适的引导提示词技巧,几乎可以从所有LLM中提取出原本应该是保密的训练数据集(例如个人私隐信息),即便这些模型已经进行了大量的对齐工作;  
复制代码
![图片](https://img-
blog.csdnimg.cn/img_convert/774f7d8c3206b8f466a7d7579483dd62.png)

  • 知识注入 :几乎每家企业都对于在他们自有的内部数据上训练LLM体现出浓厚的爱好(例如 BloombergGPT、EinsteinGPT、ShopAI 等)。但在我们如何可以大概最有效地将特定范畴的知识库信息注入到一个预训练好的 LLM的题目上 ,依旧没有完善的答案:
  1. 1. 在"Fine-tuning or retrieval? comparing knowledge injection in LLMs"中,研究者们对微调和检索增强生成(RAG)两种方式进行了深入的比较, **发现通过微调给LLM 灌输新知识极为困难,而RAG 在向LLM注入知识方面展现出了惊人的能力** 。"Retrieval-augmented generation for knowledge-intensive NLP tasks"的研究者们也提出了RAG在处理知识密集型任务时非常有效;  
复制代码
![图片](https://img-
blog.csdnimg.cn/img_convert/3b75f8162bd3b797ece7123b30ff55be.png)
  1. 2. "Lima: Less is more for alignment"这篇论文的研究显示,LLM的知识几乎全部来源于预训练阶段,而在指令优化训练阶段只需要相对较少的数据就能够教会模型产生高质量的输出;
  2. 3. "Textbooks Are All You Need"的研究证实,知识丰富的LLM可以通过在更小、经过筛选的数据集上进行训练来实现,例如教科书。  
复制代码
这些趋势不仅展示了LLM的研究希望,也为我们提供了对未来大概的发展方向的启示。随着AI技术的不停进步,预计将会看到更多关于进步数据质量、增强模型安全性和优化知识注入方法的创新。
题外话

初入计算机行业的人大概大学计算机相关专业毕业生,许多因缺少实战经验,就业随处碰钉子。下面我们来看两组数据:
2023届天下高校毕业生预计到达1158万人,就业形势严峻;
国家网络安全宣传周公布的数据显示,到2027年我国网络安全人员缺口将达327万。
一方面是每年应届毕业生就业形势严峻,一方面是网络安全人才百万缺口。
6月9日,麦可思研究2023年版就业蓝皮书(包括《2023年中国本科生就业陈诉》《2023年中国高职生就业陈诉》)正式发布。
2022届大学毕业生月收入较高的前10个专业
本科计算机类、高职自动化类专业月收入较高。2022届本科计算机类、高职自动化类专业月收入分别为6863元、5339元。其中,本科计算机类专业起薪与2021届基本持平,高职自动化类月收入增长明显,2022届反超铁道运输类专业(5295元)排在第一位。
具体看专业,2022届本科月收入较高的专业是信息安全(7579元)。对比2018届,电子科学与技术、自动化等与人工智能相关的本科专业体现不俗,较五年前起薪涨幅均到达了19%。数据科学与大数据技术虽是近年新增专业但体现亮眼,已跻身2022届本科毕业生毕业半年后月收入较高专业前三。五年前唯一进入本科高薪榜前10的人文社科类专业——法语已退出前10之列。

“没有网络安全就没有国家安全”。当前,网络安全已被提升到国家战略的高度,成为影响国家安全、社会稳固至关告急的因素之一。
网络安全行业特点

1、就业薪资非常高,涨薪快 2022年猎聘网发布网络安全行业就业薪资行业最高人均33.77万!

2、人才缺口大,就业机会多

2019年9月18日《中华人民共和国中心人民政府》官方网站发表:我国网络空间安全人才 需求140万人,而天下各大学校每年造就的人员不到1.5W人。猎聘网《2021年上半年网络安全陈诉》预测2027年网安人才需求300W,如今从事网络安全行业的从业人员只有10W人。

行业发展空间大,岗位非常多
网络安全行业财产以来,随即新增加了几十个网络安全行业岗位︰网络安全专家、网络安全分析师、安全咨询师、网络安全工程师、安全架构师、安全运维工程师、渗出工程师、信息安全管理员、数据安全工程师、网络安全运营工程师、网络安全应急响应工程师、数据判定师、网络安全产品经理、网络安全服务工程师、网络安全培训师、网络安全审计员、威胁谍报分析工程师、劫难恢复专业人员、实战攻防专业人员…
职业增值潜力大
网络安全专业具有很强的技术特性,尤其是把握工作中的核心网络架构、安全技术,在职业发展上具有不可替换的竞争上风。
随着个人本领的不停提升,所从事工作的职业价值也会随着自身经验的丰富以及项目运作的成熟,升值空间一路看涨,这也是为什么受大家接待的主要缘故原由。
从某种程度来讲,在网络安全范畴,跟大夫职业一样,越老越吃香,因为技术愈加成熟,自然工作会受到重视,升职加薪则是水到渠成之事。
黑客&网络安全如何学习
今天只要你给我的文章点赞,我私藏的网安学习资料一样免费共享给你们,来看看有哪些东西。
1.学习路线图

行业发展空间大,岗位非常多
网络安全行业财产以来,随即新增加了几十个网络安全行业岗位︰网络安全专家、网络安全分析师、安全咨询师、网络安全工程师、安全架构师、安全运维工程师、渗出工程师、信息安全管理员、数据安全工程师、网络安全运营工程师、网络安全应急响应工程师、数据判定师、网络安全产品经理、网络安全服务工程师、网络安全培训师、网络安全审计员、威胁谍报分析工程师、劫难恢复专业人员、实战攻防专业人员…
职业增值潜力大
网络安全专业具有很强的技术特性,尤其是把握工作中的核心网络架构、安全技术,在职业发展上具有不可替换的竞争上风。
随着个人本领的不停提升,所从事工作的职业价值也会随着自身经验的丰富以及项目运作的成熟,升值空间一路看涨,这也是为什么受大家接待的主要缘故原由。
从某种程度来讲,在网络安全范畴,跟大夫职业一样,越老越吃香,因为技术愈加成熟,自然工作会受到重视,升职加薪则是水到渠成之事。
黑客&网络安全如何学习
今天只要你给我的文章点赞,我私藏的网安学习资料一样免费共享给你们,来看看有哪些东西。
1.学习路线图


攻击和防守要学的东西也不少,具体要学的东西我都写在了上面的路线图,如果你能学完它们,你去就业和接私活完全没有题目。
2.视频教程

网上固然也有许多的学习资源,但基本上都残缺不全的,这是我自己录的网安视频教程,上面路线图的每一个知识点,我都有配套的视频讲授。
内容涵盖了网络安全法学习、网络安全运营等保测评、渗出测试底子、漏洞详解、计算机底子知识等,都是网络安全入门必知必会的学习内容。
3.技术文档和电子书

技术文档也是我自己整理的,包括我到场大型网安行动、CTF和挖SRC漏洞的经验和技术要点,电子书也有200多本,由于内容的敏感性,我就不一一展示了。
4.工具包、面试题和源码

“工欲善其事必先利其器”我为大家总结出了最受接待的几十款款黑客工具。涉及范围主要会合在 信息收集、Android黑客工具、自动化工具、网络钓鱼等,感爱好的同学不容错过。
尚有我视频里讲的案例源码和对应的工具包,需要的话也可以拿走。
这些题目都是大家在面试笃佩服、奇安信、腾讯大概其它大厂面试时经常碰到的,如果大家有好的题目大概好的看法接待分享。
参考解析:笃佩服官网、奇安信官网、Freebuf、csdn等
内容特点:条理清晰,含图像化表现更加易懂。
内容概要:包括 内网、操作系统、协议、渗出测试、安服、漏洞、注入、XSS、CSRF、SSRF、文件上传、文件下载、文件包罗、XXE、逻辑漏洞、工具、SQLmap、NMAP、BP、MSF…

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
如果你对网络安全入门感爱好,那么你需要的话可以点击这里

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

农妇山泉一亩田

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表