因为本人在做大模型优化方面的研究,之前拆了ChatGLM2的源代码,看看能从哪些地方深入。效果刚拆完没多久,昨天,也就是10 月 27 日,智谱 AI 在 2023 中国盘算机大会(CNCC)上发布了自研第三代对话大模型 ChatGLM3,这是智谱 AI 在今年内第三次对 ChatGLM 基座模型举行了深度优化。目前还没去拆它的源代码,以是也不太清楚和2代之间有什么区别。但2代的结构我觉得可以先发以下。
1 ChatGLM是什么?
和ChatGPT类似,ChatGLM是基于GLM大模型的下游对话应用。GLM的全称是通用语言模型模型General Language model,是清华大学与智谱AI研发的中英双语大语言模型。官方API的ChatGLM是基于GLM-130B千亿底子模型,但官方也发布了GLM-6B小参数(62亿)版本,可在消费级显卡上部署。
2 一代GLM