任意角度的场景文本检测
论文思路总结
共同点:重新添加分支的创新更突出
场景文本检测
基于分割的检测方法
spcnet(mask_rcnn+tcm+rescore)
psenet(渐进扩展)
mask text spottor(新加分割分支)
craft
incepText

基于回归的检测方法:
r2cnn(类别分支,水平分支,倾斜分支)
rrpn(旋转rpn)
textbox(ssd)
textbox++
sstd(tcm改进前身)
rtn
ctpn(微分)

基于分割和回归的混合方法:
spcnet
利用mask_rcnn来进行实例分割,通过新模块tcm(获取全局语义分割图)以及rescore来提升准确率,实例分割映射在全局语义分割打分
pixel-anchor(deeplabv3+ssd):
分割的部分检测中大目标,ssd检测小目标
east(deeplabv3)
af-rpn
位于文本核心区域中的每个滑动点,直接预测从它到文本边框顶点的偏移量
(采用ohem)

FPN官方给的训练时候是前面共享参数的,对结果影响不大,说是特征金字塔使得不同层学到了相同层次的语义特征
FPN在得到多层金字塔模块的proposals结果之后,放到一块做nms处理
FPN每层金字塔模块的scale都是一样的,因为对应到不同的feature map上面刚好检测不同大小的物体

***********************论文名字后边括号内容为亮点部分********************

hybrid:---------------------------------------------------------------
1.af-rpn(af)
anchor-free
直接预测中心点到box的四个顶点偏移量,
避免了这种情况(to achieve high recall, anchors use various scales and shapes should be designed to cover the scale and shape variabilities of objects )
scale-friendly
FPN对大中小三种尺度的目标分开检测(实现细节与fpn有不同)

2.inceptext(inceptext)
整体就是 fpn+inception_module+deformable_conv+deformable PSROI pooling
inception-text
设计类似inception中(1*1,3*3,5*5)三种卷积核对大中小三种不同尺度的目标进行检测,
也加入deformable卷积来调整感受野,把检测聚集到文字上面,不容易受方向限制;还有 two fused feature maps 增加多尺度信息。
deformable psroi pooling
(把检测聚集到文字上面,不容易受方向限制)
加入offset集中检测文字部分的信息,tend to learn the context surrounding the text
Each image is randomly cropped and scaled to have short edge of{640,800,960,1120}.
The anchor scales are {2,4,8,16}, and ratios are {0.2,0.5,2,5}.

3.rtn(无亮点)
一个多尺度的特征,加上ctpn竖直框,加上只有回归的预测
hierarchical convolutional
获得更强的语义特征,融合了resnet的模块4和模块5
vertical proposal mechanism
用ctpn获取竖直框,目的是去掉proposal的分类

regression:---------------------------------------------------------------
1.ctpn
detecting text in fine-scale proposals
generate vertical proposals
recurrent connectionist text proposals
连接vertical proposals
side-refinement
针对左右边界的anchors预测文本行的边界进行调整
2.textboxs
采用ssd来做std(multi-scale)
3.textboxs++
可以借鉴数据增强的方式 random crop
4.r2cnn(inclined box)
three ROIPoolings use different pooled sizes
anchor scales(4,8,16,32)
axis-aligned 和 inclined box一起预测且是包含关系
incline NMS
compute convolutional feature maps on an image pyramid(非主要)
augment ICDAR 2015
We rotate our image at the following angles (-90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90).
借鉴r2cnn的 ablation experiment
5.rrpn
rrpn
r-anchors(54,3*3*6),generate inclined proposals(representation,x,y,h,w,θ)
RROI pooling
skew NMS
image rotation strategy during data augmentation

segmentation ------------------------------------------------------

Scene Text Detection(场景文本检测)论文思路总结的更多相关文章

  1. 论文阅读(Xiang Bai——【arXiv2016】Scene Text Detection via Holistic, Multi-Channel Prediction)

    Xiang Bai--[arXiv2016]Scene Text Detection via Holistic, Multi-Channel Prediction 目录 作者和相关链接 方法概括 创新 ...

  2. 论文阅读(Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection)

    Weilin Huang--[TIP2015]Text-Attentional Convolutional Neural Network for Scene Text Detection) 目录 作者 ...

  3. 论文速读(Chuhui Xue——【arxiv2019】MSR_Multi-Scale Shape Regression for Scene Text Detection)

    Chuhui Xue--[arxiv2019]MSR_Multi-Scale Shape Regression for Scene Text Detection 论文 Chuhui Xue--[arx ...

  4. 【论文速读】XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection

    XiangBai_CVPR2018_Rotation-Sensitive Regression for Oriented Scene Text Detection 作者和代码 caffe代码 关键词 ...

  5. 【论文速读】Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrapping

    Chuhui Xue_ECCV2018_Accurate Scene Text Detection through Border Semantics Awareness and Bootstrappi ...

  6. 论文阅读笔记三:R2CNN:Rotational Region CNN for Orientation Robust Scene Text Detection(CVPR2017)

    进行文本的检测的学习,开始使用的是ctpn网络,由于ctpn只能检测水平的文字,而对场景图片中倾斜的文本无法进行很好的检测,故将网络换为RRCNN(全称如题).小白一枚,这里就将RRCNN的论文拿来拜 ...

  7. Learning Markov Clustering Networks for Scene Text Detection

    Learning Markov Clustering Networks for Scene Text Detection 论文下载:https://arxiv.org/pdf/1805.08365v1 ...

  8. XiangBai——【CVPR2018】Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation

    XiangBai——[CVPR2018]Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentat ...

  9. 【OCR技术系列之五】自然场景文本检测技术综述(CTPN, SegLink, EAST)

    文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别.今天我们首先来谈一下当今流行的文字检测技术有哪些. 文本检测不是一件简 ...

随机推荐

  1. win7系统下安装Splash。

    参考地址:https://www.jianshu.com/p/4052926bc12c 期间遇到的问题: 关于virtualbox的问题: 启动虚拟机失败 http://www.cnblogs.com ...

  2. OpenCV笔记:pyrDown()函数和pryUp()函数的使用

    OpenCV实现了用于创建图像金字塔的两个函数pyrDown()和pryUp(). 图像金字塔是一种经典的图像多尺寸描述方法,它将降采样和平滑滤波结合在一起,对图像进行多尺度表示.图像金字塔由不同尺寸 ...

  3. 2017华南理工华为杯H bx值(容斥问题)

    题目描述 对于一个nnn个数的序列 a1,a2,⋯,ana_1,a_2,\cdots,a_na​1​​,a​2​​,⋯,a​n​​,从小到大排序之后为ap1,ap2,⋯,apna_{p_1},a_{p ...

  4. Python 数字系列-数字格式化输出

    数字的格式化输出 问题 你需要将数字格式化后输出,并控制数字的位数.对齐.千位分隔符和其他的细节. 解决方案 格式化输出单个数字的时候,可以使用内置的 format() 函数,比如: >> ...

  5. wget下载简单语法

    文章参考:https://linuxtools-rst.readthedocs.io/zh_CN/latest/tool/wget.html nasa wget 下载: https://disc.gs ...

  6. 【ABAP系列】SAP ABAP中关于commit的一点解释

    公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[ABAP系列]SAP ABAP中关于commi ...

  7. Linux中ssh及scp的连接

    1. 当你想获取另外一台电脑上的数据时,可以使用这个命令 scp -P 10022 root@172.30.83.173:~/ubuntu1.tar ./ -r   代表传输文件夹,直接传文件可以不加 ...

  8. SAP选择屏幕开发(二)(转)

    原文链接:https://blog.csdn.net/wtxhai/article/details/90698683 1.2.SAP屏幕框架的创建        SAP页面设计中的框架不但可以保证SA ...

  9. 洛谷 P1892 [BOI2003]团伙(种类并查集)

    传送门 解题思路 用并查集f存朋友关系,一个数组e存的是敌人关系,是一个辅助数组,所以叫做种类并查集. 当p和q是朋友时,直接合并,但是当是敌人时,需要一些操作. 当p还没有敌人时(即p的敌人是自己) ...

  10. Codeforces 1000E We Need More Bosses (边双连通+最长链)

    <题目链接> 题目大意:给定一个$n$个节点$m$条边的无向图,问你对任意两点,最多有多少条特殊边,特殊边指删除这条边后,这两个点不能够到达. 解题分析: 特殊变其实就是指割边,题意就是问 ...