转自:http://blog.csdn.net/lyflower/article/details/1728642

文本分类中KNN算法,该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说, KNN方法较其他方法更为适合。

该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。另外还有一种Reverse KNN法,能降低KNN算法的计算复杂度,提高分类的效率。

该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

k近邻分类器具有良好的文本分类效果,对仿真实验结果的统计分析表明:作为文本分类器,k近邻仅次于支持向量机,明显优于线性最小二乘拟合、朴素贝叶斯和神经网络。

重点:

1:特征降维(一般用CHI方法)

2:截尾算法(三种截尾算法)

3:降低计算量

演示代码:

  1. #include "ml.h"
  2. #include "highgui.h"
  3. int main( int argc, char** argv )
  4. {
  5. const int K = 10;
  6. int i, j, k, accuracy;
  7. float response;
  8. int train_sample_count = 100;
  9. CvRNG rng_state = cvRNG(-1);//初始化随机数生成器状态
  10. CvMat* trainData = cvCreateMat( train_sample_count, 2, CV_32FC1 );
  11. CvMat* trainClasses = cvCreateMat( train_sample_count, 1, CV_32FC1 );
  12. IplImage* img = cvCreateImage( cvSize( 500, 500 ), 8, 3 );
  13. float _sample[2];
  14. CvMat sample = cvMat( 1, 2, CV_32FC1, _sample );
  15. cvZero( img );
  16. CvMat trainData1, trainData2, trainClasses1, trainClasses2;
  17. // form the training samples
  18. cvGetRows( trainData, &trainData1, 0, train_sample_count/2 ); //返回数组的一行或在一定跨度内的行
  19. cvRandArr( &rng_state, &trainData1, CV_RAND_NORMAL, cvScalar(200,200), cvScalar(50,50) ); //用随机数填充数组并更新 RNG 状态
  20. cvGetRows( trainData, &trainData2, train_sample_count/2, train_sample_count );
  21. cvRandArr( &rng_state, &trainData2, CV_RAND_NORMAL, cvScalar(300,300), cvScalar(50,50) );
  22. cvGetRows( trainClasses, &trainClasses1, 0, train_sample_count/2 );
  23. cvSet( &trainClasses1, cvScalar(1) );
  24. cvGetRows( trainClasses, &trainClasses2, train_sample_count/2, train_sample_count );
  25. cvSet( &trainClasses2, cvScalar(2) );
  26. // learn classifier
  27. CvKNearest knn( trainData, trainClasses, 0, false, K );
  28. CvMat* nearests = cvCreateMat( 1, K, CV_32FC1);
  29. for( i = 0; i < img->height; i++ )
  30. {
  31. for( j = 0; j < img->width; j++ )
  32. {
  33. sample.data.fl[0] = (float)j;
  34. sample.data.fl[1] = (float)i;
  35. // estimates the response and get the neighbors' labels
  36. response = knn.find_nearest(&sample,K,0,0,nearests,0);
  37. // compute the number of neighbors representing the majority
  38. for( k = 0, accuracy = 0; k < K; k++ )
  39. {
  40. if( nearests->data.fl[k] == response)
  41. accuracy++;
  42. }
  43. // highlight the pixel depending on the accuracy (or confidence)
  44. cvSet2D( img, i, j, response == 1 ?
  45. (accuracy > 5 ? CV_RGB(180,0,0) : CV_RGB(180,120,0)) :
  46. (accuracy > 5 ? CV_RGB(0,180,0) : CV_RGB(120,120,0)) );
  47. }
  48. }
  49. // display the original training samples
  50. for( i = 0; i < train_sample_count/2; i++ )
  51. {
  52. CvPoint pt;
  53. pt.x = cvRound(trainData1.data.fl[i*2]);
  54. pt.y = cvRound(trainData1.data.fl[i*2+1]);
  55. cvCircle( img, pt, 2, CV_RGB(255,0,0), CV_FILLED );
  56. pt.x = cvRound(trainData2.data.fl[i*2]);
  57. pt.y = cvRound(trainData2.data.fl[i*2+1]);
  58. cvCircle( img, pt, 2, CV_RGB(0,255,0), CV_FILLED );
  59. }
  60. cvNamedWindow( "classifier result", 1 );
  61. cvShowImage( "classifier result", img );
  62. cvWaitKey(0);
  63. cvReleaseMat( &trainClasses );
  64. cvReleaseMat( &trainData );
  65. return 0;
  66. }

详细说明:http://www.cnblogs.com/xiangshancuizhu/archive/2011/08/06/2129355.html
改进的KNN:http://www.cnblogs.com/xiangshancuizhu/archive/2011/11/11/2245373.html

from: http://blog.csdn.net/yangtrees/article/details/7482890

学习OpenCV——KNN算法的更多相关文章

  1. 【StatLearn】统计学习中knn算法实验(2)

    接着统计学习中knn算法实验(1)的内容 Problem: Explore the data before classification using summary statistics or vis ...

  2. 【StatLearn】统计学习中knn算法的实验(1)

    Problem: Develop a k-NN classifier with Euclidean distance and simple voting Perform 5-fold cross va ...

  3. Machine Learning In Action 第二章学习笔记: kNN算法

    本文主要记录<Machine Learning In Action>中第二章的内容.书中以两个具体实例来介绍kNN(k nearest neighbors),分别是: 约会对象预测 手写数 ...

  4. Opencv学习之路—Opencv下基于HOG特征的KNN算法分类训练

    在计算机视觉研究当中,HOG算法和LBP算法算是基础算法,但是却十分重要.后期很多图像特征提取的算法都是基于HOG和LBP,所以了解和掌握HOG,是学习计算机视觉的前提和基础. HOG算法的原理很多资 ...

  5. OpenCV实现KNN算法

    原文 OpenCV实现KNN算法 K Nearest Neighbors 这个算法首先贮藏所有的训练样本,然后通过分析(包括选举,计算加权和等方式)一个新样本周围K个最近邻以给出该样本的相应值.这种方 ...

  6. OpenCV——KNN分类算法 <摘>

    KNN近邻分类法(k-Nearest Neighbor)是一个理论上比较成熟的方法,也是最简单的机器学习算法之一. 这个算法首先贮藏所有的训练样本,然后通过分析(包括选举,计算加权和等方式)一个新样本 ...

  7. 【转载】K-NN算法 学习总结

    声明:作者:会心一击 出处:http://www.cnblogs.com/lijingchn/ 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接, ...

  8. OpenCV学习(9) 分水岭算法(3)

    本教程我学习一下opencv中分水岭算法的具体实现方式. 原始图像和Mark图像,它们的大小都是32*32,分水岭算法的结果是得到两个连通域的轮廓图. 原始图像:(原始图像必须是3通道图像) Mark ...

  9. K-NN算法 学习总结

    1. K-NN算法简介 K-NN算法 ( K Nearest Neighbor, K近邻算法 ), 是机器学习中的一个经典算法, 比较简单且容易理解. K-NN算法通过计算新数据与训练数据特征值之间的 ...

随机推荐

  1. 宿主系统为Ubuntu 14,CentOS 6.5 安装VirtualBox增强工具失败:Building the OpenGL support module[FAILED]

    安装先前的笔记:CentOS 6.3 中安装VirtualBOX增强工具失败:Building the main Guest Additions module[FAILED],执行了以下命令 #安装 ...

  2. Unity3D MainCamera和NGUI UICamera的小插曲

    集成NGUI 在实际的项目中,经常会使用NGUI来制作UI,用Main Camera来表现3D,但是NGUI的Camer的投射是正交视图而非透视,它绑定UICamer的脚本而且它的Tag默认是Unta ...

  3. hdu 5510 Bazinga (kmp+dfs剪枝) 2015ACM/ICPC亚洲区沈阳站-重现赛(感谢东北大学)

    废话: 这道题很是花了我一番功夫.首先,我不会kmp算法,还专门学了一下这个算法.其次,即使会用kmp,但是如果暴力枚举的话,还是毫无疑问会爆掉.因此在dfs的基础上加上两次剪枝解决了这道题. 题意: ...

  4. Uva 10167 - Birthday Cake 暴力枚举 随机

      Problem G. Birthday Cake Background Lucy and Lily are twins. Today is their birthday. Mother buys ...

  5. 协同滤波 Collaborative filtering 《推荐系统实践》 第二章

    利用用户行为数据 简介: 用户在网站上最简单存在形式就是日志. 原始日志(raw log)------>会话日志(session log)-->展示日志或点击日志 用户行一般分为两种: 1 ...

  6. IBOutlet & IBAction

    IBOutlet UILabel *label; 这个label在Interface Builder里被连接到一个UILabel.此时,这个label的retainCount为2. 所以,只要使用了I ...

  7. 如何完美打造Win8 Metro版IE10浏览器页面(转)

    Windows8 内置两种 Internet Explorer 10 (以下简称 IE10),一个是在桌面环境下使用的 IE10:视窗操作.可以支持各种插件(ActiveX):而另外一个则是在新的开始 ...

  8. double hashing 双重哈希

    二度哈希(rehashing / double hashing) 1.二度哈希的工作原理如下: 有一个包含多个哈希函数(H1……Hn)的集合.当我们要从哈希表中添加或获取元素时,首先使用哈希函数H1. ...

  9. MSCKF_VIO:MSCKF的双目版本

    论文:MSCKF的双目版本 Robust Stereo Visual Inertial Odometry for Fast Autonomous Flight 下载地址:点击 源码地址:https:/ ...

  10. October 1st 2017 Week 40th Sunday

    It's only after we've lost everything that we're free to do anything. 只有我们失去了所有之后我们才能随心而为. After los ...