大模型面试题总结

[复制链接]
发表于 5 天前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
下面把笔记里 7 个核心主题 逐一拆开,围绕「概念 → 原理 → 操作流程 → 实战细节 / 踩坑点」讲透,便于你真正落地。

1. 生成式大模型是什么 ──“会写东西”的超大 Transformer

关键词说明大型 TransformerEncoder-Decoder(T5)、Decoder Only(GPT、LLaMA)架构;十亿~千亿参数。条件式生成输入 prompt / image / speech,输出对应模态的新内容。多模态趋势文生图(DALL·E)、文+图→文(GPT-4o)、音频生成(AudioGen)。 实操落点


  • 同一接口思想:一切任务(择要、翻译、图片描述)都包装成「给 prompt → 取文本」;工程里只维护 Prompt-to-Output 管道。
  • Prompt 工程三段式

    • System 提示:角色与风格束缚;
    • Instruction / Few-shot:示例或解题步骤;
    • 用户输入

  • 采样参数(见主题 2)决定“官方文风”还是“搞笑即兴”。

2. 为何输出不如出一辙 ── 训练多样 + 采样随机

2.1 训练侧:多样化本领

方法目的实施要点P-Tuning / Prefix-Tuning用可学习的 prompt 前缀把通用模型“拉向”新风格只训练 <0.1 % 参数,按任务单独存 ckptLoRA 微调低秩更新,插两块 Adapter 調权重可并存多 LoRA,用权重归并快速切换混合语料新闻+论坛+诗歌采样比例要防“烂俗数据”盖过技能文档 2.2 推理侧:采样计谋

参数/计谋效果实战发起temperature控制软max尖锐度:0=险些贪心;>1 更随机0.7 ~ 1.0 口语写作;0.1 陈诉/代码Top-k只在概率最高的 k 个词中采样k=40 常见;越大越多样Top-p (Nucleus)动态选使累计概率≥ p 的词p=0.9 可取代 Top-kContrastive Search在相似度与概率间折中,克制复读需实现历史向量缓存,推理比采样慢 1.5×   实操口诀:
先定温度,再调 Top-p;想更稳就加 frequency_penalty。”
  
3. “复读机”问题 ── 产生原因与 12 招缓解

3.1 原因分析


  • 高频 n-gram 占比大 → 模型倾向输出训练集常见片断
  • 自回归目标:概率最大每每是“再来一个一样的 token”
  • 注意力归纳 (Induction Head):观察复制型模式,训练中会被奖励
  • 采样过守旧:低温度 + Top-k = 1 导致贪心输出
3.2 缓解方法分层图

  1. ┌─ 推理层 ──────────┐
  2. │ 1. Temperature ↑  │
  3. │ 2. Top-k / Top-p  │
  4. │ 3. no-repeat-ngram│←最快
  5. │ 4. RepetitionPenalty│
  6. │ 5. ContrastiveSearch│
  7. └────────▲────────┘
  8.           │
  9. ┌─ 训练层 ──────────┐
  10. │ 6. Unlikelihood   │★核心
  11. │ 7. 多样性奖励 RL  │
  12. │ 8. 边训练边去重噪│
  13. └────────▲────────┘
  14.           │
  15. ┌─ 后处理 / 监控监控 ──┐
  16. │ 9. seq-rep-N 指标 │
  17. │10. uniq-seq 阈值  │
  18. │11. 人工二次检查   │
  19. │12. 再生成兜底     │
  20. └────────┘
复制代码
Unlikelihood Training(重点)



  • 做法:挑出“重复集合 C”,loss 加 −log⁡(1−pC)-\log (1 - p_C)。
  • 流程

    • 获取基线模型输出,把连续重复 n-gram 入 C;
    • 再跑一轮训练,更新参数;
    • 复读率可降 60 % 以上,但需 精调超参:C 不宜过大&温度↓。

典范组合



  • 生产情况最快:Top-p + no-repeat-ngram + RepetitionPenalty(=1.1)
  • 仍复读 → 离线跑 Unlikelihood + Contrastive;
  • 电商标题/歌词多韵脚,自研基于规则过滤 重复韵尾+重写。

4. LLaMA 长上下文 ── “位置压缩 + 微调”完备流程

4.1 改位置编码

  1. def remap_pos(ids, dst_len=2048):
  2.     src_len = len(ids)
  3.     scale   = dst_len / src_len
  4.     return (torch.arange(src_len) * scale).long()
复制代码


  • RoPE:直接给新的 position_ids 即可。
  • 绝对 SinCos:需重算嵌入表或插值。
4.2 微调 1-2 epoch



  • 数据:> 新窗口长度的长对话 / 文章;
  • 参数:只训 LoRA (R=8) 或高层 4 层;学习率 1e-5;
  • 卡数:单张 A100 70 GB ≈ 6 h 跑完 16 k 扩窗;
4.3 验证



  • 窗口 PPL + 长问答一致性
  • 用长文择要 & 引用回答测定位准确率;
  • 检察“Attention heatmap”是否仍能跨段引用前文。
   成本 < 重新训练 5 %;效果能恢复到原模型 90 % 程度。
  
5. 选 BERT 还是 LLaMA / ChatGLM?

任务推荐理由实例分类、序列标注、实体抽取BERT / RoBERTa 110 M通道够用、延迟低客诉分类、日记告警复杂问答、长文择要LLaMA-7B + 微调需要生成长文本陈诉生成、法律择要代码生成 / 多轮对话ChatGLM-6B中英混合、可指令微调内部 ChatOps Bot 实践


  • CPU 推理 选 DistilBERT;
  • GPU 单卡 32 GB 可跑 6-7 B;
  • 千万级 QPS 场景 → 用 Tiny-LLaMA 知识蒸馏到 1.5 B。

6. 行业到底要不要自训模型?

场景发起医学、法律、金融(高门槛专有知识)通用 LLM + 私域语料 LoRA:80 % 效果,10 % 成本互联网客服 / 娱乐对话通用模型微调即可极保密场景(军工)私有化全链路训练;或使用开源基座 + 闭环增量训练 流程

  • 用 GPT-4 / Claude 先自动标一轮专用数据;
  • 筛选高质量 + 人工审校;
  • LoRA 或 Adapter 微调 → 部署;
  • 在线收集错例,参加 Replay Buffer 不断增量。

7. 复读监控监控与 A/B 上线流程


  • 指标

    • seq_rep_n(n-gram 复用率);
    • distinct-n(去重率);
    • 长文本用 self-BLEU。

  • 灰度

    • 10 % 流量先启用新采样计谋;
    • 大盘 distinct-4 ↑,投诉率 ↓ 则扩大。

  • Fallback

    • 若出现连环复读 → 触发再生成;
    • 二次仍复读 → 走模板化兜底 / 人工介入。


末端 Tips



  • Prompt 写作:多写“思路拆解→代码→解释”,可自然淘汰复读。
  • 采样调优:Top-p=0.8 & T=0.75 是对话场景的黄金组合。
  • 数据去重:训练前先 dedup + cc-net filter 能降低后期复读成本。
把握这套「原理 + 工程拨片」,就可以在实际项目中:


  • 既让大模型“写得好”,又不被复读坑;
  • 把上下文长度、行业定制、线上监控监控等问题体系化办理。祝落地顺利!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告
回复

使用道具 举报

© 2001-2025 Discuz! Team. Powered by Discuz! X3.5

GMT+8, 2025-6-27 19:36 , Processed in 0.075127 second(s), 29 queries 手机版|qidao123.com技术社区-IT企服评测▪应用市场 ( 浙ICP备20004199 )|网站地图

快速回复 返回顶部 返回列表