发生了什么
Meta 一直在推 Llama:客户数据不能上公共共享 API、要在自家语料上反复微调,或者监管要看模型血缘时,开放权重比「全托管一条链」好交代。合作方最近的讲法很雷同:生成用 Llama,向量与重排交给别家(Cohere 或自建),工具调用外面再套一层策略。常识问答榜基本没人提了。大家聊的是 VPC 里延迟多少、账单能不能估准、改提示要不要等厂商发版。
为什么重要
试点卡住,多半不是模型写不出礼貌回复,而是数据放哪、日志留多久、谁能碰生产权重这类事扯不清。权重自己扛,推理路径自己管;账务接 Stripe、代码接 GitHub、内网文档走 MCP 类连接器,不必把所有层都押在一家云上。这跟成熟团队拆数据库、身份和可观测性的做法是一回事:底座问题,不是锦上添花。
对目录的影响
Gemini 类云端和自建 Llama,很多人两边都跑:云端图快,本地权重图边界。企业上 LLM 照样撞遗留代码、脆 ETL、文档半残的接口;有测试的小步改,比「大爆炸集成」永远上不了线强。以后案例会更常写检索做得怎样、评测怎么搭、出事怎么跑,而不是比参数量。
接下来观察什么
微调数据怎么处理,SLA 得写清楚。合规问答的评测能不能复用,别每家从零搭。工具协议最好无聊且互通,别让 MCP 桥又变成一层脆胶水。VPC 推理、加密日志、高风险动作人工点一下,这几件事若变成几套常见配方,演示到能过审计的生产会近一截。在那之前,各组还是半套半套自己拼。