Zinnia库及其实现方法研究 (转)

zinnia是一个开源的手写识别库。采用C++实现。具有手写识别,学习以及文字模型数据制作转换等功能。

  • 项目地址 [http://zinnia.sourceforge.net ]
  • License: NewBSD
  • 作者对SVM很有研究. 比同类程序的效率要高效.(同类项目如tegaki)
  • 我的目的是通过这个研究简单的手写输入实现方法

Zinnia库特点

  • SVM机实现
  • 轻量级,可移植
  • 线程安全,可供C,C++,Perl,Python,Ruby调用
  • 每秒50-100 char的认识速度
  • 快速学习

以下为通过源代码研究和debug得出的结论。

可能不是完全准确

接口

定义了Character,Recognizer,Result,Trainer等4个接口类。然后分别使用CharacterImpl, RecognizerImpl, ResultImpl, TrainerImpl实现。

公用方法

  • 定义了一个模板类 read_static 用来从一个大数据集合中读取模板类大小的数据,源数据指针根据读取长度自加。和read_ptr的区别是这个是使用memcpy,读取内容到新内存里,内存的大小即模板类的大小。而read_ptr只是返回指针,并没有指针外的内存占用。
  • 定义了一个指针读取类read_ptr用来读取数据指针,源数据指针根据读取长度自加。
  • 存储数据普遍使用vector,在每次使用前首先通过resize方法对vector的大小进行重定义。

读取文字模型文件

  • 文字模型数据采用如下数据结构。

struct Model{ const char *character; // utf-8 character float bias; // const FeatureNode *x; //features};

  • 使用一个Vector<Model>将所有的模型数据载入。

读取用户输入的手写笔迹

  • 可以自由设置手写框的大小。在内部处理中所有笔迹都被转化为1*1的手写框内的坐标来处理。
  • 通过Character类的add方法增加坐标。add的第一个参数为当前笔画,第二个参数为坐标点。通过重复使用add方法可以加入多笔输入笔迹。其中每笔包含多个坐标点数据。

由于作者没有提供界面程序。所以我使用MFC做了一个界面。包括

  • 笔迹输入区域用于接受笔迹输入。300X300pixel
  • 文字显示区域。显示笔迹识别结果
  • 辞书切换radiobutton。用来切换日语输入模式和汉语输入模式
  • 识别按钮。当前笔迹识别并消除当前笔迹。
  • OK按钮。退出。

笔迹识别feature提取

  • 首先进行坐标转换。即将用户设置的a*b大小的输入框输入的坐标点转化为1*1大小输入框下的坐标点。即坐标x坐标均缩小至1/a,y坐标均缩小至1/b。存储至node链表中。node包含x和y坐标。结构如下

struct Node { float x; float y;};

  • 然后使用显著点寻找算法。首先从第一笔的笔记数据开始。以起点first和终点last作为pair[0]的初始值。然后在起点到终点之间的其他点里面寻找一个最显著的点。(作者设定的显著点特征值为0.001。即当dist^2>0.001的时候此点是显著的)。找到最显著的点best之后,再使用递归的方式,在first和best之间(此时best为当前轮回的last)以及best和last之间寻找最显著点。最终寻找到所有的最显著点。以“张”字的第一笔为例。起点终点之间的最显著点就是折点。而起点和折点之间,折点和终点之间没有其他显著点。这样这一笔可以查找出一个显著点。并且生成3个node_pair即 起点-终点 起点-折点 折点-终点
  • 然后针对第一笔的3个node_pair添加feature数据。其中每一对node_pair会被添加12个feature。分别是

    • 起点终点的距离
    • 起点终点所成直线的角度
    • 起点距离x轴中心线的距离
    • 起点距离y轴中心线的距离
    • 终点距离x轴中心线的距离
    • 终点距离y轴中心线的距离
    • 起点和输入框中心点所成直线的角度
    • 终点和输入框中心点所成直线的角度
    • 起点距离中心点距离
    • 终点距离中心点距离
    • 起点终点x轴上的投影距离
    • 起点终点y轴上的投影距离

  • 以【串】字为实例。node_pair为17个。如图
  • 其中这些node_pair可以根据feature结构的index属性分类。包括2个类别。

    • 实体笔迹有7笔 (1,345,6,9,111213,15,17)。其中实体笔迹是基于1000*n来定义index的。7笔即在0 – 6*1000 这个范围。
    • 非实体笔迹有6笔(2,6,8,10,14,16)就是这些不是实际笔迹输入。只是画完一笔之后的终点和下一笔的起点之间的连线。这类笔迹使用100000+(n+1)*1000来定义index。6笔即在101000-106000这个范围。
    • 这样会有17*12 = 204 个feature。然后加上每个字最初的一个和最后的2个feature。一共是207个feature。正是通过这207个feature进行文字的识别,并在文字模型库里面进行匹配。得到前十个最相似的文字。

文字匹配

  • 匹配将对汉字库里面所有文字进行匹配。匹配过程是将【串】字204个feature与汉字库当前汉字的所有feature进行匹配。当【串】字某一feature的index与汉字库当前汉字的某一feature的index相同时。即取两个feature值的乘积。如果index不一致则继续下一个链表的结点来比对index。
  • 将取得所有乘积相加。最后再加上汉字库当前汉字的固有属性bias。最终形成汉字库当前汉字的最终值。得到所有汉字的最终值之后按从小到大排出前十位即为识别的最终结果。

学习功能

学习功能依靠SVM机实现。还没有来得及分析这部分代码。

打算专门对SVM做一个研究。

(手写识别) Zinnia库及其实现方法研究的更多相关文章

  1. Tensorflow之基于MNIST手写识别的入门介绍

    Tensorflow是当下AI热潮下,最为受欢迎的开源框架.无论是从Github上的fork数量还是star数量,还是从支持的语音,开发资料,社区活跃度等多方面,他当之为superstar. 在前面介 ...

  2. 【Win 10 应用开发】手写识别

    记得前面(忘了是哪天写的,反正是前些天,请用力点击这里观看)老周讲了一个14393新增的控件,可以很轻松地结合InkCanvas来完成涂鸦.其实,InkCanvas除了涂鸦外,另一个大用途是墨迹识别, ...

  3. JS / Egret 单笔手写识别、手势识别

    UnistrokeRecognizer 单笔手写识别.手势识别 UnistrokeRecognizer : https://github.com/RichLiu1023/UnistrokeRecogn ...

  4. tensorflow笔记(四)之MNIST手写识别系列一

    tensorflow笔记(四)之MNIST手写识别系列一 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7436310.html ...

  5. 10分钟搞懂Tensorflow 逻辑回归实现手写识别

    1. Tensorflow 逻辑回归实现手写识别 1.1. 逻辑回归原理 1.1.1. 逻辑回归 1.1.2. 损失函数 1.2. 实例:手写识别系统 1.1. 逻辑回归原理 1.1.1. 逻辑回归 ...

  6. [纯C#实现]基于BP神经网络的中文手写识别算法

    效果展示 这不是OCR,有些人可能会觉得这东西会和OCR一样,直接进行整个字的识别就行,然而并不是. OCR是2维像素矩阵的像素数据.而手写识别不一样,手写可以把用户写字的笔画时间顺序,抽象成一个维度 ...

  7. win10下通过Anaconda安装TensorFlow-GPU1.3版本,并配置pycharm运行Mnist手写识别程序

    折腾了一天半终于装好了win10下的TensorFlow-GPU版,在这里做个记录. 准备安装包: visual studio 2015: Anaconda3-4.2.0-Windows-x86_64 ...

  8. 背水一战 Windows 10 (62) - 控件(媒体类): InkCanvas 保存和加载, 手写识别

    [源码下载] 背水一战 Windows 10 (62) - 控件(媒体类): InkCanvas 保存和加载, 手写识别 作者:webabcd 介绍背水一战 Windows 10 之 控件(媒体类) ...

  9. k最邻近算法——使用kNN进行手写识别

    上篇文章中提到了使用pillow对手写文字进行预处理,本文介绍如何使用kNN算法对文字进行识别. 基本概念 k最邻近算法(k-Nearest Neighbor, KNN),是机器学习分类算法中最简单的 ...

随机推荐

  1. BaseAdapter日常的封装

    我们日常开发中BaseAdapter使用非常的多,大家有没有想过,再进一步封装,将平常使用的对象集合,利用泛型放入集合中,再也不用每次都重写那几个方法了,当然我也提供我的下载地址(https://gi ...

  2. NET Core中怎么使用HttpContext.Current

    NET Core中怎么使用HttpContext.Current 阅读目录 一.前言 二.IHttpContextAccessor 三.HttpContextAccessor 回到目录 一.前言 我们 ...

  3. 关于《精通移动App测试实战:技术、工具和案例》图书勘误信息

    首先,对由于我们工作的疏忽向<精通移动App测试实战:技术.工具和案例>读者朋友们表示歉意,同时已将这些问题反馈给了出版社编辑同志,再版时将会统一修正: 其次,勘误信息请参看附件pdf文档 ...

  4. 软件测试基础(软件测试分类和工具组)firebug、firepath的安装

    白盒测试:需要了解内部结构和代码 黑盒测试:不关心内部结构和代码 灰盒测试:介于白盒黑盒之间 静态测试:测试时不执行被测试软件 动态测试:测试时执行被测试软件 单元测试:测试软件的单元模块 集成测试: ...

  5. [LeetCode] Maximize Distance to Closest Person 离最近的人的最大距离

    In a row of seats, 1 represents a person sitting in that seat, and 0 represents that the seat is emp ...

  6. Apache JMeter压力测试实例

    脚本录制 脚本录制,JMeter启用WEB代理,浏览器把代理上网设置为JMeter所在的IP地址,自己电脑就是127.0.0.1代理端口默认8080.至于浏览器修改代理上网服务器,不做截图. Jmet ...

  7. 【译】图解Transformer

    目录 从宏观上看Transformer 把张量画出来 开始编码! 从宏观上看自注意力 自注意力的细节 自注意力的矩阵计算 "多头"自注意力 用位置编码表示序列的顺序 残差 解码器 ...

  8. ES6躬行记(6)——Symbol

    本节将会重点分析ES6引入的第6种基本类型:Symbol(符号).符号可以像字符串那样作为对象的属性名,只是它有唯一性的特点,可以避免属性名之间的冲突. 一.创建 符号没有字面量形式,只能通过Symb ...

  9. delegate--委托

    delegate--委托 (可以把委托看成用来执行方法的一个东西) eg: namespace delegateTest{ delegate double MathsOp(double x); cla ...

  10. IT程序员每天的困扰:这TM为啥不可以?这TM也行?

    如果有对 Python 感兴趣的程序员,可以加我们小助手的QQ:979950755 会免费送 Python 的视频教程噢! 随着IT互联网对社会的影响越来越重要,关乎人类的未来发展进程.所以现在很多媒 ...