LLM,Large Language Model,大语言模型。为什么叫2.0?由于在大语言模型,也就是LLM出现之前,我们把它归结为1.0时代。那么1.0时代主要的是NLP(自然语言处理)的各类工程,它其实都是一个特点,就是说通用性比较差。那么整个AI领域的终极的圣杯,大概说未来它的一个终极的一个希望做到的,是AGI(Artificial General Intelligence,人工通用智能)。1.0可能是一个单任务的这么一个AI。比如深蓝战胜象棋冠军,他只会下象棋,而且他的下象棋是学习了许多的这个象棋的这个国际象棋的这个套路,他只会干这一个事情,而且你问他别的事情他肯定不知道。
2 LLM的特点
它可有效处理这种时序性的,序列数据。"What time is it?",练习时,它是一层一层的,它第一层这个神经网络,可能先看到"What",然后"time","is","it",看到最后的问号。它会通过这样的一个序次,行止理这样的一个语句,去做一个上下文的一个理解。它还可以做到一些短时影象和选择性的遗忘,就是RNN和LSTM,那么它主要应用在像文本生成啊,语音辨认啊,图像描述等等。这个时间就是比如说雷同RNN和LSTM这样的模型出现的时间呢,它其实已经可以做到我们常见的一些AI辨认。
再往后就到理解上下文,就是全文的上下文,如"买什么 什么is"这个这个模式理解上下文,这个模式代表作是雷同比如说这个BERT这样大模型。到这阶段,已经可完成雷同完形填空任务。那它就是根据上下文理解当前的代词,比如说男他女她动物它是什么,完成这个完形填空。那么这个时间就属于所谓的真域练习模型时代开启。
特点
支持并行练习,如说CNN(Convolutional Neural Network,卷积神经网络)这个模型比,就比如说这个"What time is it",只能一层一层处理,不支持并行练习。必须完成这个事情之后再做下一个事情。
所以呢,它替换RNN和CNN这样神经网络,更强大,可以实现一些雷同语义辨认。
最后就是OpenAI这GPT(Generative Pre-trained Transformer)出现,这个模型出现为代表,我们就正式进入了这种超大模型和模型统一的时代。从谷歌T5(Text-to-Text Transfer Transformer)这个模型开始的时间,它是引入了的这样的一个模式来练习模型。也就是说,它是把提示词告诉模型,然后把答案练习出来,然后不绝的用这样的模式来练习模型。那么当我们在问模型这些问题的时间,其实也是通过,通过提示词,通过prompt的方式来引导它。所以到这个时代的时间呢,那我们以chatgpt为代表,我们发现它的结果非常惊艳。最新的成果就是说,我们的大模型已经支持了多模态,OpenAI开启的这个大模型时代呢,它其实是把这个,一种基于的这种练习模型这种方式提了出来。
所以我们为什么开始一讲就是说,它整个的大模型的发展,可以说是从一个从点到面的这么一个发展过程。大家知道理解就是它最核心,其实最早的是基于这个词向量的这么一个技术。那么通过这个不停的发展到神经网络,到这种单线的,到并行练习,最后直到这样的一个大规模超大规模的这样一个练习集,实现了这么一个大语言的一个模型的发展。 关注我,紧跟本系列专栏文章,咱们下篇再续!