Large Language Model (LLM) 即大型语言模子,也叫大语言模子,是一种基于深度学习的自然语言处理(NLP)模子,它能够学习自然语言的语法和语义,从而天生人类可读的文本。
GPT的全称是Generative Pre-Trained Transformer(天生式预训练Transformer模子)是一种基于[互联网]的、可用数据来训练的、文本天生的深度学习模子。
2.3 整体流程
此中利用到的文本和图像嵌入来自另一个叫做CLIP(对比语言-图像预训练)的网络,这也是由OpenAI研发的。CLIP是一种神经网络,为输入的图像返回最佳的标题。它所做的事变与DALL-E 2所做的相反——它是将图像转换为文本,而DALL-E 2是将文本转换为图像。引入CLIP的目标是为了学习物体的视觉和文字表示之间的联系。
DALL-E2的工作是训练两个模子。第一个是Prior,担当文本标签并创建CLIP图像嵌入。第二个是Decoder,其担当CLIP图像嵌入并天生图像。模子训练完成之后,推理的流程如下:
l 输入的文本被转化为利用神经网络的CLIP文本嵌入。
l 利用主成分分析(Principal Component Analysis)低沉文本嵌入的维度。
l 利用文本嵌入创建图像嵌入。
l 进入Decoder步骤后,扩散模子被用来将图像嵌入转化为图像。
l 图像被从64×64放大到256×256,最后利用卷积神经网络放大到1024×1024