IT评测·应用市场-qidao123.com技术社区

标题: 应激的Llama，开源的困局 [打印本页]

作者: 南飓风 时间: 4 天前
标题: 应激的Llama，开源的困局

  在DeepSeek R1-V3、GPT-4o、Claude-3.7的强势围攻下，Meta坐不住了。曾作为开源之光的Llama在一年的竞争内连连失利，并没有研发出让公众惊艳的功能。首创人扎克伯格下达死命令，今年4月肯定要更新。
  于是我们迎来它仓促的答卷——一款在实测中让人大跌眼镜的模型Llama4，号称10m token的上下文长度反复出错、初代小球测试难以完成、9.11>9.9的比巨细失误……这场本应扎眼的亮相从等待变成群嘲。上线几天内，高管离职、测试作弊等丑闻被内部员工爆料证实。

  作为开源生态的标杆，Llama系列曾以Llama 2的辉煌战绩——衍生超过7000个变体、累计下载超3亿次，定义了商业级开源大模型的黄金期间。而短短两年间，这场由Meta主导的开源活动在技能内卷中渐渐迷失初心，进入到一种缺乏创新的恶性内卷。
  再加上，开源模型并不靠C端会员制付费变现，短期盈利无望。既如此，Llama为何急着更新？国表里的开源模型又在卷什么呢？

  Meta最新发布的Llama 4系列包括Scout（1000万Token上下文窗口）、Maverick（编码与推理对标DeepSeek V3）僧人未发布的Behemoth（2880亿活泼参数），官方声称其是有史以来最强多模态大模型。
  不外，24h就被打脸了。
  发布第二天就有内部员工爆料，Llama4的基准测试存在严重造假，模型远远达不到开源sota标准，但为了赶在四月底前发布，领导将各个benchmark的测试集混合在post-training过程中，拿出了一个“看起来可以”的效果。
  显而易见，技能掺水的后果是关键性能的严重缺陷。在社交媒体X和Reddit的用户实测中，Llama4多项任务明显落后于前代产品与同量级模型，公众并不为这样的噱头买单。
  代码能力差强人意。在Polyglot编程测试中，Maverick版本的准确率仅为15.6%～16%，险些垫底，与Meta声称的“编码能力逾越DeepSeek”严重不符。其402B的参数规模并未带来上风，反而被32B参数的Qwen-QwQ等模型逾越，基准测试效果严重失真。

核心卖点多模态能力未达预期，用户实测发现其图像理解能力以致不如谷歌去年开源的Gemma 2，且在长上下文任务中体现不稳固，随着token长度增加性能显著下降。

  Llama4的登场不但没什么亮点，还面临着刷分造榜、砸钱走下坡路等污点。既然完全没训练好，Meta干嘛上赶着自己给自己找不快呢？
  它太焦急了，焦急到即使只是一个登不上台面的残次品，也要黔驴技穷似地端上桌。
  一方面，GPT-4o、Claude3.7等头部闭源模型在多模态、代码能力上的领先让Meta在海外市场苦不堪言；另一方面，DeepSeek V3等后起之秀的登场又让它在开源社区作为引领者的光环黯然失色。
  表里夹击下，扎克伯格不得不设立四月ddl逼研发团队拿出作品，试图挽回公众的信心，但如此高压的战线反而弄巧成拙。没有时间搞创新的技能部不得不压缩测试周期，在模型未达预期环境下强行上线。
  竞争和管理的双重高压让团队在内卷中丢失了技能本位的初心。其相沿的传统技能DPO虽简化了RLHF流程，但在数学、代码等复杂任务上体现不稳固。而相比GPT-4o的多模态架构，Llama 4的改进更像是仰赖Scaling law的小修小补，疯狂堆叠参数，忽略了对底层架构的探索。
  急于求成的Meta，既没有耐心打磨技能，也没有服从行业伦理，陷入了恶性内卷的开源逆境。

  从2023年起，一月一更新的头部模型军备赛让模型竞争陷入了恶性内卷。相似的训练数据、趋同的架构让众多产品高度同质化乏善可陈。GPT-4o、Claude等实力雄厚的闭源模型便脱颖而出。
  让人迷惑的是，选择开源路径Llama，为何也要焦急？它不靠会员订阅盈利，是否更新好像并不能带来更多实质的利润。
  现实上，开源并不意味着放弃商业化，开源和闭源有着差别的盈利逻辑。闭源是直接卖产品，通过订阅付费赚钱，开源是为了构筑结实的生态壁垒靠定制化服务占领未来的市场。
  开源怎样赚钱？普通地讲，开源就相称于美食店的试吃，店家天天出100份免费甜点，为的是让顾客买更多的甜点。模厂开放免费的token使用次数，就是像美食店一样打响自己的名气，吸引有实力的企业和开发者购买定制化服务。
  开源模型的第一笔生意是高性能API的销售。底子服务虽免费，但企业可提供高性能API服务，按调用量收费。DeepSeek-R1的API定价为每百万输入Token 1元，每百万输出tokens 16元。免费token额度用完了或者底子API满足不了需求，用户就倾向于使用付费版保持业务流程的稳固性。

  此外，实力雄厚的政企客户是大模型商业化的主力军。出于高保密性和定制化需求，不少企业会购买模厂的私有化摆设服务。厂商收取技能费用，根据需求提供定制化的模型训练、微调以及后续的体系维护升级服务。据悉，大模型私有化底座建立根本是千万打底，某模厂销售透露，摆设他们公司最新的模型最少2000万，可以理解为五星级餐厅的私人晚宴和满汉全席。
  其次，部分厂商选择开源与闭源并行的双轨门路。开源底子版满足通用需求，闭源高级版服务付费市场。相称于先给你一道开胃菜，你自己选择要不要再上主食。2023年的智谱就是一个典型，公司开源ChatGLM-6B等模型建立生态，同时推出闭源的千亿参数模型GLM-130B，向B端收费。

  末了，开源其实是一道商业化的桥梁，目的是建构开发者生态社区，通过降低门槛、提高粘性、分层变现。举个例子，饭店提供试吃小菜建立了自己的吃货群，但同时也卖碗筷、卖调料品、卖店里游乐设施的体验服务。
  大模型也是一样的道理，开源吸引的一大批开发者就是他的生态，可以植入广告收取广告费，可以卖云服务，也可以卖配套的AI产品。
  现实上，开源就是为了抢生态。用户越多，未来的盈利渠道越丰富，但一旦性能被逾越，开发者流失，会引发连锁反应。
  以是Meta这么着急发布Llama4就是怕自己再不努力，开发者就会转向DeepSeek等更优模型。而前期苦心经营的AI生态一松动，看不到用户基数的云盘算互助伙伴（如微软Azure）也会离席，导致间接盈利渠道萎缩，商业变现受阻。
  更重要的是，前期AI大模型主要是打口碑效应，一旦落后，市场竞争力就会下降，而失去用户和互助伙伴的Llama在行业内部也渐渐失去了辨识度。这意味着，提起开源大模型，人们讨论Llama的次数将会越来越少。
  落后即淘汰的压力，迫使Meta必须在极短时间内推出Llama 4，哪怕捐躯模型质量。

  天下没有免费的午餐，也没有免费的生意。
  Meta对于开源的热衷，隐含着扎克伯格对大模型市场生态的渴望，这在一众国内公司中也不无体现。
  在DeepSeek等企业的动员下，国内大模型公司纷纷参加开源浪潮，比方曾坚持走闭源门路的百度也宣布在2025年6月全面开源文心4.5系列。
  不外，Llama4的失利也提醒我们，模型开源不能陷入恶性内卷，底子模厂找准差异化线路很重要。
  一方面，要坚持创新带来的性能提升。DeepSeek的全栈开源能在短时间打破B端、G端两个市场，关键在于其MoE底层架构大大降低本钱、提升效率。而Llama 4迷信scaling law，通过堆砌参数涌现智能的道路已不可通，未来破局的关键在攻克多模态、小样本前沿范畴。
  而且，基准测试不即是真实体验，不要一味追求sota而忽略了现实场景中的应用体验。与Llama 4差别，DeepSeek前期并没有给自己贴上登顶sota的光环，在海表里用户实测中赢得关注的它更有敬佩力。
  另一方面，战略是关键，做好商业化关乎开源模型的存亡存亡。

  比如，阿里Qwen系列通过全模态开源吸引开发者使用云盘算等底子设施，形成场景闭环。他们的模型在前期只是一个引子，明码标价的商品实则是云服务。而主攻AI的智谱清言没有其他东西卖，选择了开源闭源双轨并行的策略，开源吸引开发者生态，向B端和G端提供付费的定制办理方案。这说明，企业肯定要结合自己的基因思考变现策略，抓准目的市场，想清楚他们的客户等待怎样的服务。
  除了卖模型的人，使用模型的人也要注意，开源模型并非万全之策，存在隐性限定。
  首先，部分开源模型会在许可证中明确克制商业应用，仅限学术研究，如Meta llama2限定月活超7亿公司使用，削弱了开源的自由；其次，许多开源模型仅公开架构，不公开数据源和代码集，开发者只能基于现有模型微调；固然，摆设也有肯定的门槛，模型微调需要英伟达显卡等昂贵的盘算资源，普通开发者难以负担。
  现实选择开源模型时，AI开发者和软件ISV服务商肯定要谨慎阅读各种附带条款和协议，制止许可证限定与法务风险；除了开源模型，开发者也可跟闭源模厂开发商业化版本，淘汰后期风险。
  总之，Llama的一时落败告诉我们：没有技能巩固的开源生态，终是一盘散沙。开源模型厂商想靠吸引广大开发者培养用户粘性，必须保持性能领先，告别无效内卷，走向技能创新。

  ·
  ·
  ·

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/)