Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection


目录

  • 作者和相关链接
  • 方法概括
  • 创新点和贡献
  • 方法细节
  • 实验结果
  • 总结与收获点
  • 参考文献

作者和相关链接

  • 方法概括

    • 这篇文章主要讨论针对小目标的目标检测
    • 文章为了证明:对传统的R-CNN style的方法进行改进,可以用于小目标检测,并且性能比DPM方法好
      • 整个检测流程:
      1. 用改进版的RPN(修改了anchor的尺度,称为modified RPN)提取候选区域;
      2. 用改进版的CNN(结合了上下文信息的CNN模型,base的CNN可以用AlexNet或者VGG,称为ContextNet)对候选区域进行分类。(不做box regression)
  • 创新点和贡献

    • 文章从三个角度对比了小目标检测的方法:
      1. 候选区域生成:传统RPN vs.modified RPN(更好!)
      2. 上采样策略:上采样比例小+去掉全连接 vs.上采样比例大+保留全连接(更好!)
      3. 是否使用上下文信息: 不适用上下文 vs. 使用上下文(更好!)
    • 文章的贡献在于
      1. 提出了一个专门针对小目标的目标检测benchmark库;
      2. 提出了一个把传统R-CNN方法进行改进用于小目标检测的思路和流程
    • 小目标的难点:
      1. 一张图中小目标比大目标往往更多
      2. 小目标的像素少(信息少)
      3. 目前针对小目标的研究非常有限,大部分文献都是针对VOC库中的大目标
  • 方法细节

    • 小目标benchmark库的建立

      • 小目标的定义?

        • 现实生活中的目标的物理大小相对较小,比如,鼠标,插孔,盘子等等,即实际大小也比较小
        • 在图像中所占整张图像的比例小

      • 大库(包含大,小目标)如何做成小库(仅包含小库)?

        • 使用Microsoft COCO和SVN库的子集
        • 只挑选了10类
        • 去掉10类中目标比较大的(即使是鼠标类,在有的图像中鼠标也很大,把这些样本去掉)
      • 数据库大小

        • 4925张图像,8393个目标(train:test = 2:1)
        • relative area即相对面积 = Area(bounding box of the object) / Area(image)【见Table1和Table2的对比】

          • 小目标的相对面积的中位数(media realative area)分布在0.08%~0.58%(约16*16~42*42像素)
          • 一般的大目标的media realative area分布在1.38%~46.4%
        • 具体的类别,图像数,相对面积分布如下表:

      • 评估标准(mAP,和普通的多类目标检测一样)

        • 单类的PR曲线(调整IOU的阈值)
        • 单类的average precision:(PR曲线求积分,面积)
        • 多类的mAP:每类的average precision直接取平均
    • 针对R-CNN style方法进行修改得小目标检测方法和流程

      • 候选区域生成

        • 本文方法(modified RPN):普通的RPN修改了anchor大小修改 + feature map选择
        • anchor 大小修改:128^2, 256^2,512^2 → 16^2, 40^2, 100^2
        • feature map选择:conv5 → conv4_3
        • 初始RPN的anchor 和 流程如下:

        • 拿来对比的两种方法:DPM(据说在R-CNN出现之前最好的方法,HOG+SVM),原始的RPN(用来检测大目标的)
        • 实验对比结果

实验结论:修改anchor尺度(modefied RPN) 比DPM好,比原始RPN好!

      • 上采样策略

        • 本文方法(full AlexNet):直接把modefied RPN得到的候选区域resize成分类要用的CNN的原始输入图像(AlexNet是227,VGG是224)
        • 对比的方法(Partial AlexNet):把候选区域resize成67*67,输入到分类要用的CNN(因为AlexNet和VGG有全连接层,所以只能处理固定成规定大小的图像,但是如果把全连接层去掉,只取卷积层,就能用于处理大小和规定的固定大小不一样的输入图像),最后接个分类层
        • 实验对比结果:
          • 因为候选区域的大小很小,如果用full AlexNet(全连接层),则必须resize成227或者224,都是放大了好几倍,所以作者考虑到这样的放大可能引入了artificats,这个部分的实验就是在证明即使这样放大的效果也比不用整个网络只用全卷积层得到的效果更好。作者认为,第一,因为输入图像大小变小了,所以相同的感受野大小(网络结构相同)对小图而言,可能就是对应了原图的很大部分,属于coarse的scale,而对于大图,因为只对应原图的一小部分,所以更加fine,细节更多,信息更丰富;第二,从得到的特征来看,小图的feature更短,大图的feature更长(只考虑卷积层)。

实验结论:取整个(包括fc层)分类网络(Full AlexNet)比只取卷积部分的网络(Partial AlexNet)好

      • 上下文信息的结合

        • 本文方法(Context-AlexNet)网络结果如下图:

          • 网络结构分为两部分,front-end和back-end。
          • front-end由两个并行的CNN组成,一个以proposal region直接作为输入,经过6个conv层(Alex或者VGG)+1个fc层,得到4096维的特征;另一个以proposal region为中心,在原图上取4倍的proposal region的一个context region作为输入,经过6个conv层+1个fc层,得到4096维的特征
          • back-end以front-end的两个4096的特征串起来作为输入,经过2个fc层+1个softmax层得到每个proposal region的分类信息。

      • 对比的方法(Baseline AlexNet):普通的AlexNet,没有context信息。另外,作者对比了上下文的尺度大小(放大3倍还是7倍)

      • 实验对比结果

实验结论:用了上下文(ContextNet)比不用上下文(Baseline AlexNet)好!7倍和3倍差别不大!

  • 实验结果

    • 最终的mAP上和其他方法的对比(比DPM,AlexNet R-CNN,和VGG R-CNN都好)

    • 最终的mAP上AlexNet和VGG的对比(VGG好,层数更深),不同proposal个数对比(取300好,false positive少)

  • 总结与收获点

    1. 做小目标的几个思路:专门建立小目标库,对小目标大小进行统计分析,对网络进行修改(卷积核大小,anchor大小),利用目标周围的上下文信息

论文阅读(Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection)的更多相关文章

  1. 论文阅读(Xiang Bai——【arXiv2016】Scene Text Detection via Holistic, Multi-Channel Prediction)

    Xiang Bai--[arXiv2016]Scene Text Detection via Holistic, Multi-Channel Prediction 目录 作者和相关链接 方法概括 创新 ...

  2. 论文阅读(Xiang Bai——【CVPR2016】Multi-Oriented Text Detection with Fully Convolutional Networks)

    Xiang Bai--[CVPR2016]Multi-Oriented Text Detection with Fully Convolutional Networks 目录 作者和相关链接 方法概括 ...

  3. 论文阅读(Zhuoyao Zhong——【aixiv2016】DeepText A Unified Framework for Text Proposal Generation and Text Detection in Natural Images)

    Zhuoyao Zhong--[aixiv2016]DeepText A Unified Framework for Text Proposal Generation and Text Detecti ...

  4. 论文阅读(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)

    白翔的CRNN论文阅读 1.  论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...

  5. Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)

    Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文, ...

  6. BITED数学建模七日谈之三:怎样进行论文阅读

    前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进 ...

  7. 论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

  8. 论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

  9. 论文阅读之 DECOLOR: Moving Object Detection by Detecting Contiguous Outliers in the Low-Rank Representation

    DECOLOR: Moving Object Detection by Detecting Contiguous Outliers in the Low-Rank Representation Xia ...

随机推荐

  1. 这些.NET开源项目你知道吗?让.NET开源来得更加猛烈些吧

    注意:有网友提出部分项目停止更新的事情,这个问题我特意注意过,很多都是小功能组件,功能稳定,没有bug,没更新是正常的.够用就行了.其次技术支持的事情,对开源免费来说,不能太强求,这里发布的都是小功能 ...

  2. c++调用lua

    我们主要解决如下几个问题: 转:http://www.cnblogs.com/zisou/p/cocos2dx-lua2.html http://www.cnblogs.com/sevenyuan/p ...

  3. 使用echarts开发电子屏数据展示页面

    背景 之前的项目因为要顾及体量问题,选用了highchart,没用上echarts:这次因为是本地部署电子屏幕的展示页,不需要考虑体量大小,直接用上了echarts:用起来觉得非常不错,特别是地图上非 ...

  4. PHP多级联动的学习(一)

    我尝试在ThinkCMF中实现多级联动,首先我开始看了dede的联动类别管理前后台的代码以及他的数据库,经过非常多次的尝试,我渐渐有了一点想法,并给予实施. 首先写出前台的界面.如图. 然后在数据库中 ...

  5. Concurrency vs. Parallelism

    http://getakka.net/docs/concepts/terminology Terminology and Concepts In this chapter we attempt to ...

  6. 社区O2O的发展与未来

      虽然很多人都自我标榜为社区O2O,其实,在现在这个时间点上,社区O2O可以说是根本不存在的. 社区是什么?对用户来说,社区包括房子,包括邻居,包括宠物,包括保安,包括广场舞,也包括跳广场舞的大妈, ...

  7. BZOJ 2084: [Poi2010]Antisymmetry

    Sol Manacher. \(O(n)\) Manacher很简单啊.改一改转移就可以了. 然后我WA了.一开始天真的认为id只会是奇数,然后就GG. 一组 Hack 数据 3 1 0 0 然后就跳 ...

  8. Apache Solr查询语法(转)

    查询参数 常用: q - 查询字符串,必须的. fl - 指定返回那些字段内容,用逗号或空格分隔多个. start - 返回第一条记录在完整找到结果中的偏移位置,0开始,一般分页用. rows - 指 ...

  9. 1、JavaScript入门篇

    一.你知道,为什么JavaScript非常值得我们学习吗? 1. 所有主流浏览器都支持JavaScript. 2. 目前,全世界大部分网页都使用JavaScript. 3. 它可以让网页呈现各种动态效 ...

  10. js四舍五入的bug和方法

    简单来说js使用原生toFixed(x)截取小数的时候会有误差,出现在比如var o = 0.3303;o.toFixed(3);//0.330 toFixed(x)本来也是一个获取四舍五入的截取方法 ...