一、前言
视频智能系统正在从“单路离线理解”走向“多路长时序、实时”场景。城市安防、智慧交通、工业质检与多媒体检索均要求在毫秒级延迟与高并发约束下完成检测、跟踪、理解、检索、对话等复合任务[l。尽管视频基(试读)...