字节跳动推出全模态大模型 Doubao-Seed-2.0-lite，实现图像、音频与文本统一理解

5月6日，字节跳动旗下火山引擎发布豆包家族首款全模态理解模型 Doubao-Seed-2.0-lite。该版本实现视频、图像、音频与文本的原生统一理解，在视觉与逻辑推理、细粒度感知及具身理解方面性能显著提升，超越今年2月的 Pro 版本。模型支持19种语种转写与14种语种互译，可识别语音情绪与环境声音，并具备“音画同步”推理能力。其 Agent 与编程能力同步升级，可完成前端、3D场景及游戏开发等复杂任务。模型首次实现对图形用户界面的识别与执行一体化，可自主完成点击、输入等操作，支持从理解界面到交付任务的闭环应用。该技术已在电竞复盘、在线教育、跨境电商等场景落地，同时推出更轻量的 Doubao-Seed-2.0-mini 版本以支持大规模低成本部署。

字节跳动推出全模态大模型 Doubao-Seed-2.0-lite，实现图像、音频与文本统一理解

发表回复