京东开源实时视频交互模型 JoyAI-VL-Interaction

京东宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction，定位为全栈开源的交互式视觉模型，并获得 vLLM-Omni 支持。该模型可持续观察视频流，判断介入或保持沉默，实现“边看边说”的实时交互，适用于安防监控、直播解说、操作指导等场景。其后台委托机制可将代码生成、复杂推理和工具调用分流给 Agent 系统，前台继续观察现场。模型支持摄像头、直播流、监控信号等输入，并可替换 ASR、TTS、长期记忆和外部 API 模块。

京东开源实时视频交互模型 JoyAI-VL-Interaction

发表回复