京东宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction,定位为全栈开源的交互式视觉模型,并获得 vLLM-Omni 支持。该模型可持续观察视频流,判断介入或保持沉默,实现“边看边说”的实时交互,适用于安防监控、直播解说、操作指导等场景。其后台委托机制可将代码生成、复杂推理和工具调用分流给 Agent 系统,前台继续观察现场。模型支持摄像头、直播流、监控信号等输入,并可替换 ASR、TTS、长期记忆和外部 API 模块。
京东宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction,定位为全栈开源的交互式视觉模型,并获得 vLLM-Omni 支持。该模型可持续观察视频流,判断介入或保持沉默,实现“边看边说”的实时交互,适用于安防监控、直播解说、操作指导等场景。其后台委托机制可将代码生成、复杂推理和工具调用分流给 Agent 系统,前台继续观察现场。模型支持摄像头、直播流、监控信号等输入,并可替换 ASR、TTS、长期记忆和外部 API 模块。