5月6日,字节跳动旗下火山引擎发布豆包家族首款全模态理解模型 Doubao-Seed-2.0-lite。该版本实现视频、图像、音频与文本的原生统一理解,在视觉与逻辑推理、细粒度感知及具身理解方面性能显著提升,超越今年2月的 Pro 版本。模型支持19种语种转写与14种语种互译,可识别语音情绪与环境声音,并具备“音画同步”推理能力。其 Agent 与编程能力同步升级,可完成前端、3D场景及游戏开发等复杂任务。模型首次实现对图形用户界面的识别与执行一体化,可自主完成点击、输入等操作,支持从理解界面到交付任务的闭环应用。该技术已在电竞复盘、在线教育、跨境电商等场景落地,同时推出更轻量的 Doubao-Seed-2.0-mini 版本以支持大规模低成本部署。