图像分类、物体检测等计算机视觉技术随着ImageNet、COCO数据集的挑战发展,出现了许多达到人类判断水平的类神经网络。? ? 而行为识别是个比图像的物体检测更高的一个领域,它需要理解一段视频来做出预测,比一般图像(二维空间)还要多花时间的维度。近年来有了一定的发展,但尚无法达到人类的理解层次。? ? 类似于 ImageNet,行为也有一个基准:ActivityNet,是一个动作相关的竞赛,首次举办于 CVPR2016 年,共有六种任务的挑战:
这篇文章我将重点关注任务B,其余的介绍可以參考这篇文章:时空动作定位? ? 这个任务需要判断视频中哪个位置有人,并且判断人在做什么动作。使用的数据集是AVA。
AVA数据集资料:
https://research.google.com/ava/index.html
大多为csv文件,内容及栏位如下:
所以呢是一堆youtube的影片,要训练的话还要有下载小工具才行,可以参考facebookresearch/video-long-term-feature-banks(全部下载并提取成帧有的话大概有500G且训练似乎也容易,自己玩的话还是建议不要训练直接拿预训练好的模型来试就好XD)? ? 共有430个15分钟的电影片段,每秒标签包含每个人的位置及动作,训练共标签约83万个个动作,约 23 万个动作,共有 80 种动作类别。
这篇论文介绍了这项任务在去年表现最好由FAIR发表的SlowFast网络
论文与github地址:
https://arxiv.org/abs/1812.03982?https://github.com/facebookresearch/SlowFast
SlowFast网络
传统图像处理只有空间上(x,y)两个维度,但对于视频(x,y,t)多了时间的维度,而作者认为时间和空间的维度应该满足一下,空间信息慢慢地,ex :一个人在跑步时,空间的信息不会发生变化,短时间内都是“人”这个类别,但对于时间维度来说,变化是很快的(这个人随时可能是跑步或走路或只是站着)。? ? 受到生物学长类系统中的非线性启发,在先进的细胞中80%是P细胞负责空间和颜色,20%是M细胞负责相应运动变化。作者建立了双路的慢速网路来分别处理空间和时间的信息。
路径都没有两次时间下采样(没有大于1的时间步幅,也没有时间池化)以保持时间保真度。? ? 网路架构如下:
实际上读取视频的帧后样本各自给slow paths 各自给fast paths ,并且取一帧做物体检测如下图:
实测
因为是每采集64帧(~2秒)才跑一次检测,所以可以看到有点延迟。但是这个速度到底还差了一大截,每次推论要花到15秒左右(1080ti)。开源项目一
https://github.com/facebookresearch/SlowFast
开源项目二
https://github.com/wufan-tb/yolo_slowfast?tab=readme-ov-file
								
								
								
535