前言

R语言的强大之处在于统计和作图。其中统计部分的内容很多很强大,因此会在以后的实例中逐步介绍;而作图部分的套路相对来说是比较固定的,现在可以先对它做一个总体的认识。

在上一篇文章中,介绍了使用graphics库进行绘图的方法,而本文将引入一个更为强大的库 --- ggplot2,它能做出各式各样,非常酷炫的统计图(甚至地图,热图等)。

本文将结合一个实际项目中的例子讲解如何使用ggplot2绘图。

ggplot绘图总体步骤

1. 调用ggplot函数设置图形基本信息 --- 如:使用的数据集,x轴y轴向量,分类向量等最为基础的特征。

2. 调用各种绘图函数绘制各类图形 -- 如:条形图(geom_bar),直方图(geom_histogram),散点图(geom_point)等。

3. 调用各种标度函数对图形进行调整 --- 如:调整坐标轴(scale_x_continuous),调整色彩(scale_colour系列),调整图例(scale_fill系列)等。

4. 调用annotate函数往图形中添加注解。

5. 调用theme函数以对图形进行最终美化。一般来说这个函数是仅仅对外观因素进行美化,和具体数据不打交道。

特别强调的是第五点theme函数特别强大,能定制出非常酷炫的效果。

一个双柱状图+折线图的绘制实例

本例需要生成的是一个用户在过去一段时间内,观看韩剧以及非韩剧节目的时间随时间变化的双柱状图,同时,要在这个图形上用折线图绘制所有用户观看韩剧/非韩剧的平均时间。

第一步:获取基础数据集(仅显示部分)

该数据集中,每行代表该用户的一次观看记录。

各字段说明:

- DEVICE_ID:用户标识
- WATCH_TIME:观看时间
- WATCH_DURATION:观看时长
- ISKD:该节目是否为韩剧
- PERTIME:所有用户的平均观看时长

第二步:数据清洗

在刚从文本中获取到数据后,数据类型有可能不是你所期望的。

比如我的这个例子中,获取到的WATCH_TIME是因子类型,这显然不合我意。于是我将它转换成了时间类型。另外ISKD因为待会要拿他作为两个柱状的区分条件,因此将它转换为因子类型。至于观看时间,由于精度要求不高,因此直接转换为整型。

另外,第一列的数据没用到(用户的设备ID),因此剔除掉。

清洗完毕后的数据集如下:

第三步:构建图形基础函数变量
       

这一步生成的graph_base变量表示,使用data数据集,横轴为观看时间,纵轴为观看时长,根据该剧目是否为韩剧进行分类,且纵轴最大值为观看时间的最大值。

这些基础信息都可以保存在这样的一个变量里,随掉随用。

第四步:绘制韩剧/非韩剧观看时长双柱状图

绘制函数中的参数与该图形显示有关,其中stat表示取观看时长的具体值,position表示双柱状是左右并列显示。

注意是在上一步的基础图形信息变量上加上绘制函数,这就仿佛在基础图层之上添加了一个图层。

第五步:绘制平均观看时长折线图

另外两行代码则进行描点,显示具体值的操作。

注意同样是在上一步生成的变量之上叠加图层。

第六步:对坐标轴进行调整

这段代码将横坐标轴进行了格式化(具体参数请查阅相关手册)以及一定的美化。

所谓的坐标轴,或者下面要修改的图例都可以统称为标度。ggplot各种各样的标度函数,其形式大约都是scale_xx_xx这样。

第七步:设置标题,图例等信息

这一步对图中的图例以及图像的标题进行了较为细致的调整,使得图像看起来更加美观。

另外绘制柱状图图例的时候也顺便为柱状图设置了主题色Pastel1。

第八步:保存绘制结果:

还可以保存为pdf格式之类的,非常方便。

结果展示

小结

本文仅仅是从一个实例出发,讲解ggplot2绘图的基本框架步骤。对于其他细节,请读者在具体使用到的时候再去专门查询,没必要一次学会。

最后推荐一本书《R数据可视化手册》。

第三篇:数据可视化 - ggplot2的更多相关文章

  1. kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

    ---恢复内容开始--- 原kaggle比赛地址:https://www.kaggle.com/c/titanic 原kernel地址:A Data Science Framework: To Ach ...

  2. python 金融应用(三)数据可视化

    matplotlib 库( http://www.matp1otlìb.org )的基本可视化功能. 主要是2-D绘图.金融绘图和3-D绘图 一.2-D绘图 1.1一维数据集 #导入所需要的包impo ...

  3. Python-10行代码实现3个数据可视化

    阅读本文约“1分钟” 最近将Python作为第二编程语言,进行了了解与学习,可以说它的包是很强大的.这次的demo仅仅不到10行代码就可以实现三个数据可视化的小实例. 我们将要使用到matplotli ...

  4. Python数据可视化:网易云音乐歌单

    通过Python对网易云音乐华语歌单数据的获取,对华语歌单数据进行可视化分析. 可视化库不采用pyecharts,来点新东西. 使用matplotlib可视化库,利用这个底层库来进行可视化展示. 推荐 ...

  5. python学习笔记(2):科学计算及数据可视化入门

    一.NumPy 1.NumPy:Numberical Python 2.高性能科学计算和数据分析的基础包 3.ndarray,多维数组(矩阵),具有矢量运算的能力,快速.节省空间 (1)ndarray ...

  6. 第一篇:R语言数据可视化概述(基于ggplot2)

    前言 ggplot2是R语言最为强大的作图软件包,强于其自成一派的数据可视化理念.当熟悉了ggplot2的基本套路后,数据可视化工作将变得非常轻松而有条理. 本文主要对ggplot2的可视化理念及开发 ...

  7. 第三篇:R语言数据可视化之条形图

    条形图简介 数据可视化中,最常用的图非条形图莫属,它主要用来展示不同分类(横轴)下某个数值型变量(纵轴)的取值.其中有两点要重点注意: 1. 条形图横轴上的数据是离散而非连续的.比如想展示两商品的价格 ...

  8. 第三篇:数据仓库系统的实现与使用(含OLAP重点讲解)

    前言 上一篇重点讲解了数据仓库建模,它是数据仓库开发中最核心的部分.然而完整的数据仓库系统还会涉及其他一些组件的开发,其中最主要的是ETL工程,在线分析处理工具(OLAP)和商务智能(BI)应用等. ...

  9. [转载] 第三篇:数据仓库系统的实现与使用(含OLAP重点讲解)

    阅读目录 前言 创建数据仓库 ETL:抽取.转换.加载 OLAP/BI工具 数据立方体(Data Cube) OLAP的架构模式 小结 回到顶部 前言 上一篇重点讲解了数据仓库建模,它是数据仓库开发中 ...

随机推荐

  1. WCF学习之旅—第三个示例之三(二十九)

    上接WCF学习之旅—第三个示例之一(二十七) WCF学习之旅—第三个示例之二(二十八) 在上一篇文章中我们创建了实体对象与接口协定,在这一篇文章中我们来学习如何创建WCF的服务端代码.具体步骤见下面. ...

  2. NGUI缓动函数

    缓动函数:http://easings.net/zh-cn 研究NGUI的博客:http://dsqiu.iteye.com/category/295721

  3. PHP基础示例:商品信息管理系统v1.1[转]

      实现目标:使用php和mysql写一个商品信息管理系统,并带有购物车功能 一.创建数据库和表 1.创建数据库和表:demodb 2.创建表格:goods 字段:商品编号,商品名称,商品类型,商品图 ...

  4. 关于ipxe启动的几个疑问

    关于ipxe启动的几个疑问 http://bbs.wuyou.net/forum.php?mod=viewthread&tid=373026&page=1&extra=#pid ...

  5. Linux 下shell显示-bash-4.1$不显示用户名路径的解决方法

    Linux CentOS下shell显示-bash-4.1$不显示用户名路径的解决方法   问题描述:   CentOS下新增一个用户,登录进去之后shell脚本的信息如下:     而不是我们经常看 ...

  6. Cocos2dx系列笔记7:一个简单的跑酷游戏《萝莉快跑》的消化(附下载)

    懒骨头(http://blog.csdn.com/iamlazybone) 或许有天 我们羡慕和崇拜的人 因为我们的努力 也会来了解我们 说不定 还会成为好友 骨头喜欢这样与哲哲共勉 多少个夜晚 一张 ...

  7. 五通信算法:五种编码增益比较matlab模拟

    1. 卷积编码增益性能.BER 信道环境:AWGN 信噪比SNR :0:0.1:6 MATALB仿真架构:源比特 +卷积码 +BPSK +AWGN +Viterbi +BER 说明:卷积编码,不同的R ...

  8. android脚步--Relativelayout设置

    引自http://blog.csdn.net/lamp_zy/article/details/8035161 http://my.oschina.net/honeyming/blog/130761 以 ...

  9. XML与HTML的主要差异

    1. 参考 XML 简介 2. XML 与 HTML 的主要差异 XML 不是 HTML 的替代. XML 和 HTML 为不同的目的而设计: XML 被设计为传输和存储数据,其焦点是数据的内容. H ...

  10. RMQ问题 [luogu 3865]

    原题地址 ST表模板题,尝试用单点修改线段树. 原本以为线段树会被卡掉,但是还是险过了.实践证明,快速读入很有用. #include<bits/stdc++.h> using namesp ...