春节试炼场已然铺开。Agent(智能体)时代,正在加速走来。
实测豆包2.0:聚焦多轮复杂指令遵循与稳定性
豆包2.0的升级路径,延续字节一贯的技术思路。
火山引擎总裁谭待曾在2025年12月发布豆包1.8时接受包括《每日经济新闻》在内的媒体采访时表示,多模态能力的提升是模型成为复杂Agent的关键。“多模态其实代表着模型的应用进入更深的领域。”
此番豆包2.0的突破,正是沿着这一方向展开。
本次发布的豆包大模型2.0提供了多种选择:包含Pro、Lite、Mini三款多模态通用模型,以及面向开发者的Code模型。其中,旗舰款豆包2.0 Pro定位于复杂深度推理、Agent等高难度任务。
在推理和Agent能力评测中,豆包2.0 Pro在IMO、CMO数学奥赛和ICPC编程竞赛中获得金牌成绩,超越了Gemini 3 Pro在Putnam基准测试上的表现。此外,在HLE-text(人类的最后考试)中,豆包2.0 Pro取得最高分54.2分。
据官方介绍,豆包2.0还重点强化了指令遵循能力,可保持较强的一致性与可控性,作为Agent模型能够在长链路、多步骤任务中严格按约束条件执行。对此,《每日经济新闻》记者对豆包大模型2.0 Pro(专家版)进行了实测。
测试由DeepSeek设计,聚焦多轮复杂指令遵循与稳定性。记者以“请帮我规划一个为期3天的北京旅游行程,预算3000元,独自一人”为初始条件,并在对话过程中不断加入新约束,观察模型是否会遗忘或混淆信息。
面对初始条件,豆包2.0 Pro经过不到2分钟思考,便给出了一份信息完备的规划,具体到每个景点的预约方式和游玩路线。由于未指定具体日期,模型自动按旺季价格标准进行了预算测算。
记者又先后补充了“第一天晚餐换成北京评分高的湘菜或者川菜”“带上母亲出游,预算调整为5000元,住宿需要更换为双床房”“第三天不去长城,换个轻松一点的地方逛”等多个条件。
在保持行程框架不变的前提下,豆包2.0 Pro在收到“带上长辈”的信息后,主动调整了景点内的游览路线,增加了游船、园内电动车等适老选项;在满足第一晚吃辣需求的同时,还核验了备选餐厅是否有适合长辈的食物。
多模态理解是此次升级的另一重头戏。从测试成绩来看,在空间理解MMSIBench、运动理解MotionBench、视频理解VideoMME等测评集上,豆包2.0 Pro均略胜Gemini 3 Pro一筹;在图表理解CharXiv-RQ 上能力也再次大幅提升。
而在实际应用能力上,豆包2.0亦有所提升。据字节官方介绍,面对动态场景,豆包2.0强化了对时间序列与运动感知的理解能力,对“变化、动作、节奏”等信息的捕捉更为稳定,工程侧可用性更高。
在长视频场景中,豆包2.0可作为AI助手完成实时视频流分析、环境感知、主动纠错与情感陪伴,实现从被动问答到主动指导的交互升级,可应用于健身、穿搭等陪伴场景。
价格方面,豆包2.0 Pro仍按照“输入长度”区间定价,32k以内输入为3.2元/百万tokens,输出为16元/百万tokens,相较Gemini 3 Pro和GPT 5.2具备明显成本优势。豆包2.0 Lite则主打性价比,综合性能超越两个月前发布的上一代主力豆包1.8,百万tokens输入价格为0.6元。
目前,豆包2.0 Pro已在豆包App(应用程序)、电脑端、网页版上线,火山引擎同步开放API(应用程序编程接口)服务。
大力出奇迹?字节不只想赢下AI“春节档”
相比前两次迭代,此次豆包2.0没有发布会也没有进行过多的预热。
而春节前夕也恰逢国内大模型密集上新期。阿里1月26日发布Qwen3-Max-Thinking旗舰推理模型;1月27日,月之暗面Kimi K2.5发布;之后,阶跃星辰发布新一代开源Agent基座模型Step 3.5 Flash;2月12日,MiniMax正式上线最新旗舰编程模型MiniMax M2.5,作为全球首个为Agent场景原生设计的生产级模型,其编程与智能体性能直接对标国际顶尖模型Claude Opus 4.6。
行业迭代提速,而字节连发三款核心模型,亮出的是全栈AI布局的底牌。
2月12日,已在国内外引发热议的Seedance 2.0视频模型正式登场。次日,Seedream 5.0 Lite图像模型上线,首次支持实时检索增强能力,可通过联网获取最新知识和资讯。
然而,模型能力提升的同时,算力消耗也在水涨船高。Seedance 2.0全面上线后,不少用户反馈排队现象严重。但值得一提的是,2月14日,记者在即梦平台体验Seedance 2.0时发现,模型上新了Seedance 2.0 Fast版本,而其生成视频消耗平台积分相对更少。




还没有评论,来说两句吧...