2024大模型面试八股（含100道答案）

欢乐狗 · 2025-4-28 14:55:35

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

最近已有不少大厂都在秋招宣讲了，也有一些在 Offer 发放阶段。
节前，我们邀请了一些互联网大厂朋友、今年加入社招和校招面试的同学。
针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题举行了深入的讨论。
总结链接如下：

《大模型面试宝典》(2024版) 正式发布

喜欢本文记得收藏、关注、点赞。更多实战和面试交流，文末加入我们

秋招正在风起云涌地举行中，看到许多人的简历上都包含大模型相关的工作，各家大厂和初创都很舍得给钱，动辄百万年包也变得不再特殊。
因此在大模型纵横的这个时代，不但大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。
本文总结了100道大模型算法岗常见的面试题（含答案），篇幅有限，完备版，文末获取。
内容如下：
一、基础篇
1、目前主流的开源模型体系有哪些？

Transformer体系：由Google提出的Transformer 模型及其变体，如BERT、GPT 等。
PyTorch Lightning：一个基于PyTorch的轻量级深度学习框架，用于快速原型筹划和实验。
TensorFlow Model Garden：TensorFlow官方提供的一系列预训练模型和模型架构。
Hugging Face Transformers：一个盛行的开源库，提供了大量预训练模型和工具，用于NLP 任务。

2、prefix LM 和 causal LM 区别是什么?
prefix LM (前缀语言模型)：在输入序列的开头添加一个可学习的任务相关的前缀，然后使用这个前缀
和输入序列一起生成输出。这种方法可以引导模型生成适应特定任务的输出。
causal LM (因果语言模型)：也称为自回归语言模型，它根据之前生成的 token 猜测下一个token。在生成文本时，模型只能根据已经生成的部分生成后续部分，不能访问未来的信息。
3、涌现能力是啥原因?
涌现能力 (Emergent Ability) 是指模型在训练过程中突然体现出的新的、之前未曾预推测的能力。这种现象通常发生在大型模型中，原因是大型模型具有更高的表示能力和更多的参数，可以更好地捕获数据中的模式和关联。
随着模型规模的增长，它们能够自动学习到更复杂、更抽象的概念和规律，从而展现出涌现能力。
4、大模型LLM的架构介绍?
大模型LLM(Large Language Models) 通常接纳基于Transformer的架构。Transformer模型由多个编码器或解码器层组成，每个层包含多头自注意力机制和前馈神经网络。这些层可以并行处理输入序列中的所有位置，捕获长距离依赖关系。大模型通常具有数十亿以致数千亿个参数，可以处理大量的文本数据，并在各种NLP任务中体现出色。
前馈神经网络 (Feedforward Neural Network) 是一种最基础的神经网络范例，它的信息流动是单向的，从输入层经过一个或多个隐藏层，最终到达输出层。在前馈神经网络中，神经元之间的连接不会形成闭环，这意味着信号在前向流传过程中不会回溯。前馈神经网络的基本组成单元是神经元，每个神经元都会对输入信号举行加权求和，然后通过一个激活函数产生输出。激活函数通常黑白线性的，它决定了神经元的输出是否应该被激活，从而答应网络学习复杂和非线性的函数。
前馈神经网络在模式识别、函数迫近、分类、回归等多个领域都有应用。例如，在图像识别任务中，网络的输入层节点可能对应于图像的像素值，而输出层节点可能代表差别种别的概率分布。
训练前馈神经网络通常涉及反向流传 (Backpropagation) 算法，这是一种有效的学习算法，通过计算输出层的误差，并将这些误差信号沿网络反向流传，以调解连接权重。通过多次迭代这个过程，网络可以逐渐学习如何减少输出误差，从而实现对输入数据的正确分类或回归。
在筹划和训练前馈神经网络时，必要思量多个因素，包括网络的层数、每层的神经元数目、激活函数的选择、学习速率、正则化策略等，这些都对网络的性能有紧张影响。
5、目前比力受欢迎的开源大模型有哪些?
GPT系列：由OpenAl开发的生成式预训练模型，如 GPT-3。
BERT系列：由Google开发的转换式预训练模型，如BERT、RoBERTa等。
T5系列：由Google开发的基于Transformer的编码器-解码器模型，如T5、mT5等。
6、目前大模型模型结构都有哪些?

Transformer：基于自注意力机制的模型，包括编码器、解码器和编码器-解码器结构。
GPT系列：基于自注意力机制的生成式预训练模型，接纳解码器结构。
BERT系列：基于自注意力机制的转换式预训练模型，接纳编码器结构。
T5系列：基于Transformer的编码器-解码器模型。

7、prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点?
prefix LM：通过在输入序列前添加可学习的任务相关前缀，引导模型生成适应特定任务的输出。优点是可以减少对预训练模型参数的修改，降低过拟合风险；缺点是可能受到前缀表示长度的限制，无法充分捕获任务相关的信息。
causal LM：根据之前生成的 token猜测下一个 token, 可以生成连贯的文本。优点是可以生成灵活的文本，适应各种生成任务；缺点是无法访问未来的信息，可能生成不一致或有误的内容。
encoder-decoder：由编码器和解码器组成，编码器将输入序列编码为固定长度的向量，解码器根据编码器的输出生成输出序列。优点是可以处理输入和输出序列差别长度的任务，如机器翻译；缺点是模型结构较为复杂，训练和推理计算量较大。
8、模型幻觉是什么?业内办理方案是什么?
模型幻觉是指模型在生成文本时产生的不准确、无关或虚构的信息。这通常发生在模型在缺乏足够信息的环境下举行推理或生成时。业内的办理方案包括：
使用更多的数据和更高质量的训练数据来提高模型的泛化和准确性。
引入外部知识源，如知识库或事实检查工具，以提供额外的信息和支持。
强化模型的推理能力和逻辑推理，使其能够更好地处理复杂问题和避免幻觉。
9、大模型的Tokenizer的实现方法及原理?
大模型的Tokenizer通常使用字节对编码 (Byte-Pair Encoding,BPE) 算法。BPE算法通过迭代地将最频繁出现的字节对合并成新的符号，来构建一个词汇表。在训练过程中，模型会学习这些符号的嵌入表示。Tokenizer将输入文本分割成符号序列，然后将其转换为模型可以处理的数字表示。
这种方法可以有效地处理大量文本数据，并减少词汇表的规模。
10、ChatGLM3的词表实现方法?
ChatGLM3 使用了一种改进的词表实现方法。它首先使用字节对编码 (BPE) 算法构建一个基本的词表，然后在训练过程中通过不断更新词表来引入新的词汇。具体来说，ChatGLM3 在训练过程中会根据输入数据动态地合并出现频率较高的字节对，从而形成新的词汇。这样可以有效地处理大量文本数据，并减少词汇表的规模。
同时，ChatGLM3 还使用了一种特殊的词表分割方法，将词表分为多个片段，并在训练过程中逐步更新这些片段，以提高模型的泛化能力和适应性。
11、GPT3、LLAMA、ChatGLM 的 Layer Normalization 的区别是什么?各自的优缺点是什么?
GPT3：接纳了Post-Layer Normalization (后标准化)的结构，即先辈行自注意力或前馈神经网络的计算，然后举行Layer Normalization。这种结构有助于稳定训练过程，提高模型性能。
LLAMA：接纳了Pre-Layer Normalization (前标准化)的结构，即先辈行Layer Normalization,然后举行自注意力或前馈神经网络的计算。这种结构有助于提高模型的泛化能力和鲁棒性。
ChatGLM：接纳了Post-Layer Normalization的结构，类似于GPT3。这种结构可以提高模型的性能和稳定性。
12、大模型常用的激活函数有哪些？
ReLU（Rectified Linear Unit）：一种简单的激活函数，可以办理梯度消散问题，加快训练速率。
GeLU（Gaussian Error Linear Unit）：一种改进的ReLU函数，可以提供更好的性能和泛化能力。
Swish：一种自门控激活函数，可以提供非线性变动，并具有平滑和非单调的特性。
13、多查询注意力与群查询注意力是否了解?区别是什么?
Multi-query Attention 和 Grouped-query Attention 是两种差别的注意力机制变种，用于改进和扩展传统的自注意力机制。Multi-query Attention：在Multi-query Attention中，每个查询可以与多个键值对举行交互，从而捕获更多的上下文信息。这种机制可以提高模型的表达能力和性能，特殊是在处理长序列或复杂关系时。
Grouped-query Attention：在Grouped-query Attention中，查询被分成多个组，每个组内的查询与对应的键值对举行交互。这种机制可以减少计算复杂度，提高服从，同时仍然保持较好的性能。
14、多模态大模型是否有打仗?落地案例?
多模态大模型是指可以处理和理解多种模态数据（如文本、图像、声音等）的模型。落地案例，例如：
OpenAI的DALL-E和GPT-3：DALL-E是一个可以生成图像的模型，而GPT-3可以处理和理解文本。两者联合可以实现基于文本描述生成图像的功能。
Google的Multimodal Transformer：这是一个可以同时处理文本和图像的模型，用于各种多模态任务，如图像字幕生成、视觉问答等。
二、进阶篇
1、llama输入句子长度理论上可以无限长吗?
LLaMA（Large Language Model Adaptation）模型的输入句子长度受到硬件资源和模型筹划的限制。
理论上，假如硬件资源足够，模型可以处理非常长的输入句子。然而，实际上，由于内存和处理能力的限制，输入句子长度通常是有限制的。在实际应用中，开发者会根据具体需求和硬件设置来确定符合的输入句子长度。
2、什么是LLMs复读机问题?
LLMs复读机问题是指在某些环境下，大型语言模型在生成文本时会重复之前已经生成的内容，导致生成的文本缺乏多样性和创造性。
3、为什么会出现LLMs复读机问题?
LLMs复读机问题可能由多种因素引起，包括模型训练数据中的重复模式、模型在处理长序列时的注意力机制失效、大概模型在生成文本时对过去信息的过度依赖等。
4、如何缓解LLMs复读机问题?
数据加强：通过增长训练数据的多样性和复杂性，减少重复模式的出现。
模型改进：改进模型的结构和注意力机制，使其更好地处理长序列和避免过度依赖过去信息。
生成策略：在生成文本时接纳多样化的策略，如抽样生成或引入随机性，以增长生成文本的多样性。
5、什么环境用Bert模型，什么环境用LLaMA、ChatGLM类大模型?
BERT模型通常用于必要理解文本深层语义的任务，如文本分类、命名实体识别等。
LLaMA和 ChatGLM类大模型则适用于必要生成文本或举行更复杂语言理解的任务，如对话系统、文本生成等。选择哪种模型取决于任务的需求和可用资源。
6、各个专业领域是否必要各自的大模型来服务?
差别的专业领域必要特定的大模型来更好地服务。专业领域的大模型可以针对特定领域的语言和知识举行优化，提供更准确和相关的回答和生成文本。=
7、如何让大模型处理更长的文本?

使用模型架构，如Transformer, 它可以有效地处理长序列。
使用内存机制，如外部记忆或缓存，来存储和检索长文本中的信息。
使用分块方法，将长文本分割成更小的部分，然后分别处理这些部分。
大模型参数微调、训练、推理

8、假如想要在某个模型基础上做全参数微调，毕竟必要多少显存?
全参数微调 (Full Fine-Tuning) 通常必要大量的显存，由于这种方法涉及到更新模型的所有参数。
显存的需求取决于模型的规模、批量大小、以及使用的硬件。例如，对于大型模型如GPT- 3,可能必要多个GPU以致TPU来分配显存，每个GPU或TPU可能必要几十GB的显存。在实际操纵中，必要举行试错法来确定符合的批量大小和硬件设置。
9、为什么SFT之后感觉LLM傻了?
SFT（Supervised Fine-Tuning）之后感觉LLM（Large Language Model）“傻了”，可能是由于微调过程中出现了以下问题：

过拟合：模型可能过度适应训练数据，导致在新数据上的泛化能力降落。
数据质量：假如训练数据质量不高，模型可能学到了错误的模式或偏见。
微调强度：微调的强度可能不够，导致模型没有充分适应新的任务。在这种环境下，模型可能没有学习到足够的特定领域的知识，因此在执行相关任务时体现不佳。

10、SFT指令微调数据如何构建?

网络或生成与特定任务相关的指令和数据对，其中指令是描述任务或要求的文本，数据是对应的输入输出示例。
清洗和预处理数据，以确保数据的质量和一致性。
根据任务需求，对数据举行加强，如使用数据加强技术生成更多的训练样本。
将数据格式化为模型训练所需的格式，例如，对于语言模型，通常必要将文本转化为模型可以理解的数字编码。

11、领域模型Continue PreTrain数据选取?
领域模型继续预训练（Continue Pre-Training）的数据选取应该基于领域内的文本特点和应用需求。通常，必要选取大量、高质量、多样化的领域文本数据。数据可以来自专业文献、行业陈诉、在线论坛、消息文章等。数据选取时应该注意避免偏见和不平衡，确保数据能够全面地代表领域内的知识和语言使用。
12、领域数据训练后，通用能力往往会有所降落，如何缓解模型忘记通用能力?

多任务学习：在训练过程中同时包含领域内和通用的任务，使模型能够同时学习领域特定的和通用的知识。
控制微调强度：通过调解微调的学习率或训练轮数来控制模型对领域数据的适应水平。
定期回炉：在领域数据训练后，定期使用通用数据举行回炉训练，以保持模型的通用能力。
知识蒸馏：使用一个预训练的通用模型来引导领域模型，帮助模型保持通用知识。

13、领域模型Continue PreTrain，如何让模型在预训练过程中就学习到更多的知识?

数据加强：使用数据加强技术如回译、掩码语言模型等来生成更多的训练样本。
知识注入：将领域特定的知识以文本、结构化数据或知识图谱的形式注入到预训练过程中。
多模态学习：假如适用，可以使用多模态数据(如文本和图像)举行预训练，以丰富模型的知识表示。

14、举行SFT操纵的时候，基座模型选用Chat照旧Base?
在举行指令微调 (SFT) 操纵时，选择基座模型 (Chat或Base) 取决于具体任务的需求和模型的性能。通常，假如任务必要生成对话或交互式相应，可以选择对话优化的模型 (Chat)。假如任务更注意理解和生成文本的能力，可以选择基础模型 (Base)。
在实际应用中，可能必要根据实验效果和模型性能来选择最符合的基座模型。
15、领域模型微调指令&数据输入格式要求?
领域模型微调的指令和数据输入格式要求取决于所使用的模型和框架。一般来说，指令应该是清晰、具体的，能够引导模型完成特定的任务。数据输入格式通常必要与模型的输入接口相匹配，例如，对于文本模型，数据通常必要是字符串格式，而且可能必要经过特定的预处理，如分词、编码等。
16、领域模型微调领域评测集构建?
构建领域模型微调的领域评测集时，应该确保评测集能够全面、准确地反映领域内的任务需求和性能指标。通常，必要从领域内的真实数据中网络或生成评测样本，并确保样本的多样性和代表性。此外，可以根据任务需求筹划定制的评价指标，以评估模型在领域内的性能。
17、领域模型词表扩增是不是有必要的?
领域模型词表扩增通常是有必要的，尤其是当领域内有大量的专业术语或特定词汇时。词表扩增可以帮助模型更好地理解和生成领域内的文本，提高模型的领域适应性。然而，词表扩增也必要审慎举行，以避免引入过多的噪音或不相关的词汇。
18、如何训练本身的大模型?

选择符合的预训练目标和任务：确定模型将学习哪些通用的语言知识，以及针对哪些特定任务举行优化。
网络和准备数据：网络大量、多样化的数据，包括通用数据和特定领域的数据，举行清洗和预处理。
选择模型架构：选择一个得当的模型架构，如Transformer, 并确定模型的规模和层数。
定义训练流程：设置训练参数，如学习率、批量大小、训练轮数等，并选择符合的优化器和丧失函数。
训练模型：使用准备好的数据和训练流程开始训练模型，监控训练过程中的性能和资源使用。
评估和调优：在训练过程中定期评估模型的性能，并根据必要调解训练参数和模型架构。
微调和优化：在模型到达肯定的性能后，举行微调以适应特定的应用场景和任务需求。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

2024大模型面试八股（含100道答案）

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块