Memory Enhanced Global-Local Aggregation for Video Object Detection
这里认为的是对于video object detection 来说,有全局语义信息和局部定位信息。 这里用了memory enhanced 来做这点。Long Range Memory (LRM)Module.
Global: 当我们无法识别当前的物体,会尝试通过对上下文通过高度语义相似的来决定这个物体是什么。
Local: 通过相邻帧中的物体运动变化,可以帮助我们寻找到物体的位置。
shuffle video frames as global , ordered as local.
LRM是对历史的有限local 特征的 aggregation,cached 在那里来减少计算,直接供模型调用。