Report of The Paper:"The Years of Pedestrain Detection, What Have We Learned?"

1:Introduction

主要的行人检测方法:“Viola&Jones variants”,HOG+SVM,DPM,ConvNet     

 

2:Dateset

 

    1:不同的数据集

  1. INRIA:最古老的也是有相对较少的图片;有高质量的行人注解在多种不同的环境(城市,沙滩等)。
  2. ETH和TUD-Brussels:中等大小的录像数据集。
  3. Daimler:几乎不考虑,因为缺少有颜色的渠道。(Daimler stereo,ETH,KITTI 提供立体的图像信息)
  4. Caltech-USA和KITTI:是行人检测的主要基准,都是非常大且具有挑战性的。Caltech-USA突出因为有大量已经被逐个评估的方法;而KITTI由于更多元化而突出,但是还没有被广泛使用。(除了KITTI都使用统一的评估工具。除了INRIA均包含视频内容。)

    2:本文使用内容

  1. 使用了Caltech-USA作为第一对比数据集;INRIA和KITTI作为第二占比。
  2. Caltech-USA和INRIA使用了log-average miss-rate(越小越好)(Miss Rate:丢失率=测试集正例判别为负例的数目/测试集检索到想要的正例数加上未检测到不想要的 即是 全部groud truth的数量)
  3. KITTI使用了AUC(越高越好)(AUC:一个正例,一个负例,预测为正的概率值比预测为负的概率值还要大的可能性。)

3:主要提升行人检测的方法

3.1:训练数据

  1. 在Galtech-USA上训练的方法表现比INRIA上好。         

3.2:方法的家族

  1. 40余个方法可以被大体分为三个家族:DPM,DF,DN。
  2. 我们能通过表格发现似乎(被促进的)DF很适合行人检测,在多个数据集上均能获得最低的MR,但不清楚原因。DN也展示出了较好的性能

3.3:更好的分类器

  1. 没有明显的证据证明非线性核会比线性核性能好;类似的,也无法说明不同的分类器(比如SVM和DF)哪个更好。

3.4:更多的数据

  1. 很多的解决方法还使用了更多的数据,比如:立体图像,光流(如用前面的帧),追踪或者是从其他传感器获取的数据(如雷达)。
  2. 单眼法(monocular methods?)依然不清楚追踪能有提升多少前一帧的检测。

3.5:利用上下文

  1. 利用上下文的策略包括ground plane constraints(MultiResC&RandForest),variants of auto-context(MOCO),other category detector(MT-DPM+Context),and person-to-person patterns(DBN-Mut&+2Ped&JointDeep)
  2. 上下文可以提升行人检测的表现,即使没有3.4和3.8用到的方法多。

3.6:可变形的部分

  1. DPM目前已经有数十种变种

3.7:多尺寸模型

  1. 一般对于检测,在提取特征之前高分辨率和低分辨率候选窗口都被重新采样到相同尺寸。目前已经发现虽不同的分辨率图片用不同的模型可以提高1-2%的MR表现;而且也不会影响计算时间,即使训练时间增加。
  2. 总结:多尺寸模型可以带来提升,但是提升聊胜于无。

3.8:深层架构

  1. 大量的训练数据和日益增加的计算机性能使得深层架构在各种计算机视觉任务(大规模的分类和检测以及语义标记)上获得成功(通常是卷积神经网络)。
  2. ConvNet在INRIA上使用混合监督和无监督学习建立卷积神经网络;这一方法在ETH和TUD-Brussels获得同样的结果,但是无法概括Caltech体系。这一方法从原始像素值学习已有的特征。
  3. 其他工作聚焦于用深层结构共同模拟零件和遮挡(jointly model parts and occlusions?)(例:DBN-Isol&DBN-Mut&JointDeep&SDN)提升大约在1.5-14%。注意这些工作用边缘和颜色特征,或者初始化边缘滤波器的网络权重而不是像深层架构一样从原始像素值中进行学习。目前还没有在ImageNet上的特征预训练的报告。
  4. 总结:尽管目前依旧没有证据能证明深层网络擅长学习特征。大部分使用深层网络的成功方法用parts,occlusions,context方面来造高层网络。这个结果不和DPM以及DF相提并论,导致使用这个架构的好处还不清楚。

3.9:更好的特征

  1. 最流行的提升检测质量的方法是增加或多样化输入图像的特征。大量的特征类型已经被发掘:边缘信息,颜色信息,纹理信息,局部形状信息,协方差信息及其他的。
  2. 当大量的DF方法使用10特征管道,一些论文想到增加更多信道的方法。尽管增加信道有提升,但是最优选择依旧是10个(6个渐变方向,1个梯度大小,3个颜色信道,我们称之为HOG+LUV)。
  3. 应该注意到深度学习并不能获得行人检测的更好特征。
  4. 总结:近十年的行人检测发展都能归功于特征的增多,而且这一趋势还会继续。下一步应该是建立一个更深刻的理解什么使得好的特征好而且知道怎么设计一个更好的。

4:实验

选择了Integral Channels Features framewirks(一个DF)进行实验。

4.1:复习特征的作用

  1. 在这一部分我们将评估增加特征复杂性的影响,在INRIA数据集上调用所有方法,并在Caltech-USA上进行演示;在INRIA上的结果可以在补充材料上看到细节。
  2. 总结:从VJ以来的进展大多可以归功于更好的特征,基于梯度或者颜色信息。一些基于特征的简单调整也能有一些小提升(例如:把10个HOG+LUV信道用卷积每个信道和三个DCT函数,将信道增加到40个)

4.2:互补的方法

  1. 考虑互补的框架特征:更好的特征(HOG,LUV,DCT),更多的数据(光流),上下文(人与人互动?)
  2. 我们的实验显示加入更多特征,流,上下文信息是有很强的互补性的,即使是从一个强的检测器开始。
  3. 我们仍能发现进一步了解核心算法能帮助我们获得更好的检测质量(因此进一步减少附加项的相对改善),或者是拓展系统内部使用技术的多样性。

4.3:模型的容量多少合适?

  1. 我们的主要任务是使训练集能概括测试集,所以我们先考虑:学习的模型能在训练集上表现好吗?
  2. 我们在图六发现在4.1中考虑的模型在测试机中表现不好,从图5也能看到在测试集上的趋势相同,我们没有看到过拟合的趋势
  3. 总结:我们的结果表明,越好的辨别能力带来更好的检测质量,而鉴别能力能从更多更好的特征或者更复杂的分类器得到。

4.4:跨数据集的泛化

  1. 因为真实应用都基于一个特别的基准,所以模型的泛化能力使关键(泛化能力:通俗来讲就是指学习到的模型对未知数据的预测能力),因此训练集和测试集不同是更有意义的。
  2. 仅仅几样不同的行人数据集表现就比很多相似的数据集好。
  3. 总结:虽然在一个数据集上学到的探测器也许不会在另一个上表现的好,但是它们的排名却跨数据集稳定;无论基准如何都能都能从好的方法中学习。

5:总结

  1. 我们的实验发现近十年的行人检测发展都能归功于特征的增多,而且这一趋势还会继续,虽然一些特征能通过学习得到,但是大部分还是需要反复的用手进行实验。
  2. 我们的实验发现更好的特征,光流和上下文的结合是最互补的,而且在Caltech-USA上有最好的表现。
  3. 虽然三大行人检测的家庭(deformable part models,decision forests,deep networks)基于不同的技术,但是他们的结果却十分相近。
  4. 目前最主要的挑战是什么使得一个好的特征是好的,以设计一个更好的。

由于自身能力和时间仓促的原因,该报告的内容肯定有不少错误之处,欢迎大家指出,我会及时修改;论文的pdf版本我也会在5.28日与该论文的补充材料报告一同上传。