现在有一个人,如何对这个人怎么识别这个人?那么就对其存在的特征进行提取,比如,提取其身高,其相貌,其年龄,分析这些特征,从而确定了,这个人就是这个人,我们绝不会认错。

同理,对数据进行分析,也是提取出数据的特征,对其特征进行分析,从而确定这些数据所呈现的信息状况,从而确定了这些数据的独特性和唯一性,因为他呈现的信息是唯一的,绝不与别的是相同的。

那么这些特征是什么呢?拥有哪些特征呢?似乎应该是经过无数科学家的总结,终于发现了几个重要的特征,包括数字特征和分布特征,这个数字特征,包括集中位置,分散程度,而后整体分布,就是一个总体的描述,其实,这里就有一个疑惑,数字特征和分布特征,到底有什么区别?他们依靠什么来从本质上加以区分开来的呢?

可以试着从一个角度来分析一下,数字特征,也就是说集中位置和分散程度是一个数,在坐标上,他仅仅代表着一个点,一个数字而已。而分布特征,则表现为一个图形,他可以是二维的图形,也可以是三维的图形,甚至可以是N维的图形。所以可以说,数字特征和分布特征,分别是数据信息在低维度和高纬度上面体现。

最后,我们为什么要分析数据?分析数据有何种意义可言?其实,就像我们认识分析一个人的特征是为了判断一个人一样,我们分析数据的特征,就是为了统计推断,为其服务的。

明白了以上的要点,初步建立了一个良好的逻辑结构和逻辑起点,即为数据---》特征分析---》信息呈现---》统计推断,下面就可以把所有的目光聚集在其中一个关键而又核心的位置了,即为特征分析。

问题在于,现在已经要研究集中位置,分散程度和整体分布,那么用什么东西描述他,或者说,用什么东西来表现他?

先来说,集中位置。

常用来表现集中位置的,有均值,众数,中位数和百分位数

1,均值:

简单,就是平均数咯。

公式的定义为:

在R语言中,求均值的公式为mean(x),x为样本,可以为向量,在这里不得不提一下,向量,在线性代数中有一个解释,即为向量就是一组有序的数组,这个定义放在这里是最恰当不过了。从数据分析的角度来说,只有一个数据,不存在分析的必要性,如果数据多了,就有了分析的必要,这些多的数据,放在一起,从而组成一组数。这组数在数学上的表示,就成了向量。

那么为什么向量可以表示有序数组,可以其实这么想,我现在把向量的起始点规定在坐标的原点,那么向量的终点就可以非常固定而又准确的表示出一个点了,这个点,在不同维度之中,表示这个点的数字也或多或少,比如在一位坐标中,也就是数轴上,这个点就只有一个数,令为a。在二维空间中,这个点为(a,b),在三维空间中,这个点为(a,b,c),四维空间中,这个点的坐标为(a,b,c,d),同理,在n维空间之中,这个点的坐标为(a,b,c,d........),看着这样的规律,可见,向量可以正好表示存在的一组数,不论这组数中到底存在着多少的数据,这也是为什么线性代数中为什么要这么定义向量的原因了。

如果你只看大学课本里的那本线性代数,你会发现那里只是突然给出了向量的新的定义,至于为什么给出新的定义,他就没有说了,我想说的是,这还是教科书么?也许仅仅就是一个工具书而已,由此可见,中国的教育在高等层次上,还是做的很烂的,我都不禁怀疑,那些家伙到底也理解透了么?这或许是中国数学为什么在后期阶段都乏力的原因吧,能够给予我们良好指导的老师,几乎缺乏。。

其实吧,我觉得,线性代数,那一本书,本质上讲的就是有序数组,有序数组和有序数组之前的关系的学问,如果他本质上讲的向量,或者本质上讲的是矩阵,那么到底谁是本质,到底,谁才是本质上真正由起始的表现谁?所以说,他们最终都只是有序数组的一体两面而已。。。

不多说了,回到正题。。。

   是把求平均值运用到矩阵当中,1,表示的行求平均,如果变为2,则表示,列求平均。

2,众数

也就是出现最多的数

3,中位数

就是处在一组数中间的数据,在获取这个中间数之前,必须先对这组数进行排序

排序的函数为:sort( )

中位数的公式:

对应的函数:

4,百分位数

所谓百分位数,比如样本总数为20,把他分为100个等分,即为20/100,如果在其25百分位数,即为20*25/100=20*25%=20/4=5,则这时,我们研究的数字就指向的第五个数。

R语言中的函数:

在来说说分散程度。。

这里只说说两种表现的方法,极差和方差。

所谓极差就是最大值和最小值的差距,常人的一般判断,都晓得最大值和最小值的差很容易就知道,这个的确是可以表示一组数据的分散程度的。

然而如下:

2,7,8,10    2,5,6,10

这两种数据,很显然就不能够用极差来判别他的分散程度了,就必须得另外想办法。

可以使用|2-10+7-8|    |2-10+5-6|   容易得出后者的分散程度较小,然而这种计算方法显得有点不方便,他需要把数据分为几个部分来计算,增加了计算的复杂程度,那么有不有更加简单,效果却一样的方法呢?

  可以观察有,5-6 其实是等于,5-5.5+5.5-6  中间其实有平均数在作用。

所以我们用每个数,减去其平均数,由于有正有负,又由于绝对值不方便计算,所以加上一个平方,从而得到一个平方差之和来表达一组数的离散,但仅仅是平方和相加么?那么几组数中数据的多少不同呢?这样就不好比较了,所以,再对这一平方和取得一个平均数,这样就可以比较了,这样,我们就得到了方差,公式为:

最后,在这一篇,说说前面几个表示集中位置的方法的区别,当存在离群非常明显的数据的时候,均值,就不能够很好的显示一组数据的集中位置,这个时候,就得靠众数和中位数,至于百分位数,可以用来显示特征的特征,即任意其中一个数,正整体中所表现的状态,如,小明的50分的成绩,在全班成绩中所在的位置,如果他的成绩,即50分处在75百分数,则表示他的成绩是是在中上游的。

下一篇,将讲分布和绘图体系。

R语言结合概率统计的体系分析---数字特征的更多相关文章

  1. R语言与概率统计(二) 假设检验

    > ####################5.2 > X<-c(159, 280, 101, 212, 224, 379, 179, 264, + 222, 362, 168, 2 ...

  2. R语言与概率统计(一) 描述性统计分析

      #查看已安装的包,查看已载入的包,查看包的介绍 ########例题3.1 #向量的输入方法 w<-c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 6 ...

  3. R语言与概率统计(六) 主成分分析 因子分析

    超高维度分析,N*P的矩阵,N为样本个数,P为指标,N<<P PCA:抓住对y对重要的影响因素 主要有三种:PCA,因子分析,回归方程+惩罚函数(如LASSO) 为了降维,用更少的变量解决 ...

  4. R语言与概率统计(三) 多元统计分析(下)广义线性回归

    广义线性回归 > life<-data.frame( + X1=c(2.5, 173, 119, 10, 502, 4, 14.4, 2, 40, 6.6, + 21.4, 2.8, 2. ...

  5. R语言与概率统计(三) 多元统计分析(中)

    模型修正 #但是,回归分析通常很难一步到位,需要不断修正模型 ###############################6.9通过牙膏销量模型学习模型修正 toothpaste<-data. ...

  6. R语言与概率统计(五) 聚类分析

    #########################################0808聚类分析 X<-data.frame( x1=c(2959.19, 2459.77, 1495.63, ...

  7. R语言与概率统计(四) 判别分析(分类)

    Fisher就是找一个线L使得组内方差小,组间距离大.即找一个直线使得d最大. ####################################1.判别分析,线性判别:2.分层抽样 #inst ...

  8. R语言与概率统计(三) 多元统计分析(上)

    > #############6.2一元线性回归分析 > x<-c(0.10,0.11,0.12,0.13,0.14,0.15,0.16,0.17,0.18,0.20,0.21,0. ...

  9. R语言入门级实例——用igragh包分析社群

    R语言入门级实例——用igragh包分析社群 引入—— 本文的主要目的是初步实现R的igraph包的基础功能,包括绘制关系网络图(social relationship).利用算法进行社群发现(com ...

随机推荐

  1. 本地日志数据实时接入到hadoop集群的数据接入方案

    1. 概述 本手册主要介绍了,一个将传统数据接入到Hadoop集群的数据接入方案和实施方法.供数据接入和集群运维人员参考. 1.1.  整体方案 Flume作为日志收集工具,监控一个文件目录或者一个文 ...

  2. bzoj2800

    这题好难,翻了一下波兰文的题解……这好像是当年唯一没人A的题目 首先区间修改不难想到差分,我们令d1=x1,dn+1=-xn,di=xi-xi-1 注意Σdi=0,这样对于[l,r]的修改(比如+a) ...

  3. java分割excel文件可用jxl

    excel导入是经常使用到的功能,如果文件数据量大的话还是建议分割后导入,java常用的API是poi和jxl,我采用的是jxl,那么让我们来看下怎么用jxl来实现分割. 需要在pom中导入jxl的包 ...

  4. java zip4j 内存文件和磁盘文件 压缩和加密

    经常服务器需要对文件进行压缩,网络上流传较多的是从磁盘文件中来压缩成zip文件.但是常常服务器的文件存放在内存中,以byte[]形式存储在内存中.这个时候就不能使用网络上流传的常用方法了,这里就需要对 ...

  5. Git—推送代码至Github

    Git—上传代码至Github 首先得有个Github的账户,然后创建一个库. 然后找到指向改库的URL 第一次上传需要设置用户邮箱,打开git安装文件/bin下面找到git.bash并打开,设置全局 ...

  6. python学习笔记之四-多进程&amp;多线程&amp;异步非阻塞

    ProcessPoolExecutor对multiprocessing进行了高级抽象,暴露出简单的统一接口. 异步非阻塞 爬虫 对于异步IO请求的本质则是[非阻塞Socket]+[IO多路复用]: & ...

  7. CentOS7日期时间设置方法以及时间基本概念介绍

    在CentOS 6版本,时间设置有date.hwclock命令,从CentOS 7开始,使用了一个新的命令timedatectl. 一.基本概念 1.1 GMT.UTC.CST.DST 时间 (1) ...

  8. [LeetCode] 154. Find Minimum in Rotated Sorted Array II_Hard

    Suppose an array sorted in ascending order is rotated at some pivot unknown to you beforehand. (i.e. ...

  9. 最受欢迎的前端框架 —— Bootstrap学习

    Bootstrap是Twitter的Mark Otto和Jacob Thornton开发的,是目前最受欢迎的前端框架,它简单灵活,使得Web前端开发更加快捷方便. 首先,要基本掌握Bootstrap框 ...

  10. 高德地图开发者平台获取sHA1值

    一般在  Application 中进行初始化 /** * 获取高德SHA1值 * */ public static String sHA1(Context context) { try { Pack ...