汕尾海湾 发表于 2024-8-2 05:52:52

AIGC范畴综述

2023

1. A Survey of Large Language Models

论文择要:
语言本质上是一种由语法规则支配的复杂的人类表达系统。开发能够理解和把握语言的人工智能算法是一个重大挑衅。语言建模作为一种紧张的语言理解和生成方法,在过去的二十年中得到了广泛的研究,从统计语言模型发展到神经语言模型。近年来,通过大规模语料库上的预训练Transformer模型提出了预训练语言模型(PLMs),在解决各种NLP任务方面表现出强盛的本领。由于研究职员发现模型缩放可以提高性能,他们通过将模型尺寸增长到更大的尺寸来进一步研究缩放效应。有趣的是,当参数规模凌驾一定水平时,这些扩大的语言模型不仅实现了明显的性能提升,而且还表现出一些小规模语言模型不存在的特殊本领。为了区分参数规模上的差异,研究团体创造了术语大型语言模型(LLM)来描述具有明显规模的plm。近年来,学术界和业界对llm的研究得到了很大的推进,此中一个明显的希望是ChatGPT的推出,引起了社会的广泛关注。llm的技术发展对整个AI社区产生了紧张影响,这将彻底改变我们开发和使用AI算法的方式。在本调查中,我们通过介绍llm的配景、紧张发现和主流技术,回顾了llm的最新希望。我们特殊关注llm的四个紧张方面,即预培训、适应调优、使用和本领评估。别的,我们还总结了开发llm的可用资源,并讨论了将来发展方向的剩余问题。
2. A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

论文择要:
随着ChatGPT的走红,生成式人工智能(AIGC,又名人工智能生成内容)因其分析和创建文本、图像等的本领而成为各地的头条新闻。在如此铺天盖地的媒体报道下,我们几乎不可能错过从某个角度一睹AIGC的机会。在人工智能从纯分析过渡到创造的期间,值得留意的是,ChatGPT及其最新的语言模型GPT-4只是众多AIGC任务中的一个工具。对ChatGPT的本领印象深刻的是,许多人都想知道它的范围性:GPT-5(或其他将来的GPT变体)可否资助ChatGPT同一所有AIGC任务以举行多样化的内容创建?为了回答这个问题,需要对AIGC现有的任务举行全面审查。因此,我们的工作通过提供AIGC从技术到应用的初步相识来迅速填补这一空白。现代生成式AI依赖于各种技术基础,从模型架构和自我监视预训练到生成式建模方法(如GAN和扩散模型)。在介绍了基本技术之后,本文根据各种AIGC任务的输出范例,包括文本、图像、视频、3D内容等,重点介绍了各种AIGC任务的技术发展,描绘了ChatGPT将来的全部潜力。别的,我们还总结了它们在一些主盛行业中的紧张应用,如教育和创意内容。末了,我们讨论了现在面对的挑衅,并预测了生成式人工智能在不久的将来怎样发展。
3. On the Opportunities and Risks of Foundation Models

论文择要:
随着模型(如BERT、DALL-E、GPT-3)的兴起,人工智能正在经历范式转变,这些模型在大规模的广泛数据上举行训练,并适用于广泛的卑鄙任务。我们称这些模型为基础模型,以夸大它们至关紧张但不完整的特征。本报告全面介绍了基础模型的机会和风险,包括它们的本领(比方,语言、视觉、机器人、推理、人类交互)和技术原则(比方。比方,模型架构、培训程序、数据、系统、安全性、评估、理论)到其应用(比方,法律、医疗保健、教育)和社会影响(比方,不平等、滥用、经济和环境影响、法律和道德思量)。尽管基础模型是基于标准的深度学习和迁移学习,但它们的规模导致了新的紧急本领,而且它们在许多任务中的有用性激励了同质化。同质化提供了强盛的杠杆作用,但需要谨慎,因为基础模型的缺陷会被卑鄙所有适应的模型所继承。尽管基础模型即将广泛部署,但我们现在对它们怎样工作、何时失效,以及由于它们的涌现属性,它们甚至能够做什么,缺乏清楚的理解。为相识决这些问题,我们相信,许多关于基金会模型的批判性研究将需要与其基本社会技术性子相称的深入跨学科互助。
4. Summary of ChatGPT/GPT-4 Research and Perspective Towards the Future of Large Language Models

论文择要:
本文对ChatGPT和GPT-4举行了全面的调查,这是GPT系列中最先进的大型语言模型(LLM),以及它们在不同范畴的潜在应用。究竟上,诸如通过整个万维网获取知识的大规模预训练、指令微调和来自人类反馈的强化学习(RLHF)等关键创新在增强llm的适应性和性能方面发挥了紧张作用。我们对arXiv上的194篇相关论文举行了深入分析,包括趋势分析、词云表现和跨各个应用范畴的分布分析。研究结果表明,人们对ChatGPT/GPT-4研究的爱好日益浓厚,紧张会合在直接自然语言处置惩罚应用上,同时也表现出在教育、历史、数学、医学和物理等范畴的巨大潜力。本研究旨在深入相识ChatGPT的功能、潜在影响、伦理问题,并为该范畴的将来发展提供方向。
5. Foundation Models for Natural Language Processing – Pre-trained Language Models Integrating Media

论文择要:
这本开放获取的书全面概述了基础模型的研究和应用的艺术状态,适用于认识基本自然语言处置惩罚(NLP)概念的读者。近年来,一种革命性的新范式已经发展为NLP的训练模型。这些模型首先在大量文本文档聚集上举行预训练,以得到一样平常的语法知识和语义信息。然后,它们会针对特定的任务举行微调,它们通常能以超人的准确性解决这些任务。当模型充足大时,它们可以通过提示来解决新任务,而无需任何微调。别的,它们可以应用于广泛的不同媒体和问题范畴,从图像和视频处置惩罚到机器人控制学习。因为它们为解决人工智能中的许多任务提供了蓝图,所以它们被称为基础模型。在扼要介绍了基本的NLP模型之后,介绍了紧张的预训练语言模型BERT、GPT和序列到序列转换器,以及自留意和上下文敏感嵌入的概念。然后,讨论了改进这些模型的不同方法,如扩大预训练标准,增长输入文本的长度,或包括额外的知识。然后概述了约莫20个应用范畴的最佳表现模型,比方,问答、翻译、故事生成、对话系统、从文本生成图像等。针对每个应用范畴,讨论了现有模型的优缺点,并对将来的发展举行了预测。别的,还提供了免费获取程序代码的链接。末了一章总结了人工智能的经济机会、风险缓解和潜在发展。
6. AI-Generated Content (AIGC): A Survey

论文择要:
为了应对数字经济中数字智能的挑衅,人工智能生成内容(AIGC)应运而生。AIGC使用人工智能辅助或取代人工生成内容,根据用户输入的关键字或需求生成内容。大模型算法的发展极大地增强了AIGC的本领,使AIGC产品成为一个很有前途的生成工具,为我们的生存增长了便利。作为上游技术,AIGC具有支持不同卑鄙应用的无穷潜力。分析AIGC当前的功能和缺点对于理解如安在将来的应用程序中最好地使用它是很紧张的。因此,本文提供了AIGC的广泛概述,包括其定义、基本条件、前沿本领和高级特性。别的,还讨论了大规模预训练模型的效益和AIGC的财产链。别的,本文还探究了AIGC中辅助生成和主动生成之间的区别,并提供了文本生成的示例。本文还探究了AIGC与元宇宙的潜在整合。末了,文章指出了存在的问题,并对将来的应用方向提出了建议。
7. One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

论文择要:
OpenAI近来发布了GPT-4(又名ChatGPT plus),这被证明是生成式人工智能(GAI)的一小步,但却是人工通用智能(AGI)的一大步。自2022年11月正式发布以来,ChatGPT迅速吸引了众多用户,并得到了广泛的媒体报道。这种前所未有的关注也促使众多研究者从各个方面对ChatGPT举行研究。根据谷歌scholar的数据,有凌驾500篇文章在标题中使用了ChatGPT,大概在择要中提到了它。思量到这一点,急迫需要举行审查,而我们的工作填补了这一空白。总的来说,这项工作是第一个全面回顾ChatGPT的底层技术、应用和挑衅的研究。别的,我们还预测了ChatGPT怎样发展到实现通用的AIGC(即人工智能生成的内容),这将是AGI发展的一个紧张里程碑。
8. A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT

论文择要:
近来,ChatGPT与DALL-E-2和Codex一起受到了社会的广泛关注。因此,许多人对相关资源感爱好,并试图揭开其令人印象深刻的性能背后的配景和机密。究竟上,ChatGPT和其他生成式AI (GAI)技术属于人工智能生成内容(AIGC)的范畴,它涉及通过AI模型创建数字内容,如图像、音乐和自然语言。AIGC的目标是使内容创建过程更加高效和可访问,答应以更快的速度生产高质量的内容。AIGC是通过从人类提供的指令中提取和理解意图信息,并根据其知识和意图信息生成内容来实现的。近年来,大规模模型在AIGC中变得越来越紧张,因为它们提供了更好的意图提取,从而改善了生成结果。随着数据和模型规模的增长,模型可以学习的分布变得更加全面和靠近现实,从而产生更加真实和高质量的内容。本文全面回顾了生成模型的历史,基本组件,以及AIGC的最新希望,从单模态交互和多模态交互。从单模态的角度,介绍了文本和图像的生成任务和相关模型。从多模态的角度出发,介绍上述模态之间的交织应用。末了讨论了AIGC存在的开放问题和将来的挑衅。
9. Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

论文择要:
本文为在卑鄙自然语言处置惩罚(NLP)任务中使用大型语言模型(llm)的从业者和最终用户提供了一个全面和实用的指南。我们从模型、数据和卑鄙任务的角度对llm的使用举行了讨论和看法。首先,我们对当前的GPT和bert式法学硕士举行了介绍和扼要总结。然后,我们讨论了预训练数据、训练数据和测试数据的影响。最紧张的是,我们具体讨论了大型语言模型用于各种自然语言处置惩罚任务的使用和非用例,比方知识麋集型任务、传统的自然语言理解任务、自然语言生成任务、突发本领和特定任务的留意事项。我们提出了各种用例和非用例来分析法学硕士在现实世界中的实际应用和范围性。我们还试图相识数据的紧张性以及与每个NLP任务相关的具体挑衅。别的,我们探究了虚假毛病对法学硕士的影响,并深入研究了其他基本思量因素,如效率、本钱和延迟,以确保在实践中全面相识部署法学硕士。这本全面的指南旨在为研究职员和从业者提供与法学硕士互助的宝贵看法和最佳实践,从而使这些模型能够在广泛的NLP任务中成功实施。
10. A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT

论文择要:
预训练基础模型(pfm)被认为是具有不同数据模式的各种卑鄙任务的基础。PFM(比方BERT、ChatGPT和GPT-4)在大规模数据上举行训练,为广泛的卑鄙应用提供合理的参数初始化。BERT从Transformers中学习双向编码器表现,变形金刚是在大型数据集上作为上下文语言模型举行训练的。类似地,生成式预训练变压器(GPT)方法使用变压器作为特征提取器,并在大型数据集上使用自回归范式举行训练。近来,ChatGPT在大型语言模型上表现出有渴望的成功,它应用了具有零提示或少提示的自回归语言模型。PFM的明显成绩为人工智能的各个范畴带来了重大突破。许多研究提出了不同的方法,提高了对更新调查的需求。本研究对文本、图像、图形以及其他数据模式的pfm的最新研究希望、挑衅和机会举行了全面回顾。这篇综述涵盖了自然语言处置惩罚、计算机视觉和图学习中使用的基本构成部分和现有的预训练方法。别的,它还探究了用于不同数据模式的高级pfm和思量数据质量和数目的同一pfm。本文还讨论了与pfm基本原理相关的研究,如模型效率和压缩、安全性和隐私性。末了,本研究提出了PFMs范畴的关键启示、将来研究方向、挑衅和有待解决的问题。总的来说,本调查旨在展现pfm在人工通用智能的可扩展性、安全性、逻辑推理本领、跨范畴学习本领和用户友爱交互本领方面的研究。
2024

连续更新~~~
参考


[*]https://github.com/codingonion/awesome-llm-and-aigc

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: AIGC范畴综述