12/5/2017 3:39:22 PM

前言

Misra-Gries算法是频繁项挖掘中一个著名的算法。频繁项就是那些在数据流中出现频率最高的数据项。频繁项挖掘,这个看似简单的任务却是很多复杂算法的基础,同时也有着广泛的应用。

对于频繁项挖掘而言,一个简单的想法是,为所有的数据项分配计数器,当一个数据项到达,我们即增加相应计数器的值。但当数据流的规模较大时,出于内存的限制,我们往往不可能为每个数据项分配计数器。而Misra-Gries算法则是以一种清奇的思路解决了这个问题,实现了在内存受限的情况下,以较小的错误率统计数据流中的频繁项。

算法作者

Misra-Gries算法在1982年由华威大学的Misra和Gries提出。

频繁项

我们首先对频繁项进行形式化的定义。

给定一系列数据项,频繁项挖掘的目的只是简单地找到那些出现最频繁的数据项。通常我们定义这个问题为找到那些出现频率超过具体阈值的数据项。

定义1. 给定一个数据流\(S\),它包含\(n\)个数据项\(t\_1,\cdots,t\_n\),那么一个数据项\(i\)的频数为\(f\_i=|\\{j|t\_j=i\\}|\)。而集合\(\\{i|f\_i>\phi n\\}\)中的元素,我们称为\(\phi-\)频繁项。

例子. 对于数据流\(S=(a,b,a,c,c,a,b,d)\),有\(f\_a=3,f\_b=2,f\_c=2,f\_d=1\)。如果设\(\phi=0.2\),那么频繁项有\(a,b\)和\(c\)。

Misra-Gries算法

即使\(\phi\)的值很大,解决这个问题的算法也至少要花费\(O(n)\)的空间。在这种情况下,一个错误率为\(\epsilon\)的近似算法被提出。这就是我们的Misra-Gries算法。它的具体步骤如下:

首先建立一个大小为\(k\)的数组\(T\)。

对于数据流中依次到达的项\(i\)进行如下处理:如果项\(i\)在数组\(T\)中,则其对应的计数器\(c_i++\);如果项\(i\)不在数组\(T\)中,且数组\(T\)中的元素个数小于\(k-1\),则将项\(i\)加入数组\(T\),并为其分配计数器\(c_i=1\);其他情况,将数组\(T\)中所有元素的计数器减1,此时如果数组\(T\)中存在元素的计数器值为0,则从数组\(T\)移除这个元素。

当完成对数据流的扫描后,数据\(T\)中保存的\(k’(k’≤k-1)\)个元素即是数据流中的频繁项。

Python实现

下面使用python3进行实现,其中数组\(T\)和计数器\(c_i\)使用字典实现。

def misra_gries(S,k):
for i in S:
if i in c:
c[i]+=1
elif len(c)<k-1:
c[i]=1
else:
for j in list(c):
c[j]-=1
if c[j]==0:
c.pop(j)
print (c)
return list(c)

假设\(k=3,S=[1,2,1,4,2,1,5,2]\),那么程序的输出结果如下

{1: 1}
{1: 1, 2: 1}
{1: 2, 2: 1}
{1: 1}
{1: 1, 2: 1}
{1: 2, 2: 1}
{1: 1}
{1: 1, 2: 1}
[1, 2]
[Finished in 0.2s]

正确性证明

上面说到了这个算法是一个近似算法,这表明算法输出的结果并不一定是频繁项。Misra-Gries算法的错误率为\(\epsilon\)。

定义2. 给定一个包含\(n\)个数据项的数据流\(S\),上述的\(\epsilon-\)近似算法返回一个集合\(F\)。对于所有满足\(i\in F\)数据项\(i\),都有\(f\_i>(\phi-\epsilon)n\);并且不存在\(i \notin F\)的数据项\(i\),使得\(f\_i>\phi n\)。

上面的定义表明,Misra-Gries算法输出的数据项并不一定是频繁项,但是频繁项一定在输出结果之中。后一句便是问题的关键了,它表明Misra-Gries算法可以确保找到数据流中的频繁项。下面我们对这一点进行简要的证明。

定理1. 计数器减一的操作最多执行了\(n/k\)轮。

证明:当数组\(T\)中元素的个数等于\(k-1\)时,才会出现计数器减一的操作。此时,计数器值共减少\(k-1\),包括被舍弃的新数据项,计数器值之和共比实际到达的数据项的个数少\(k\)。由于最后的计数器值之和是大于\(0\)的,且数据流中数据项的个数为\(n\),所以计数器减一的操作最多执行了\(n/k\)轮。

定理2. 当\(k=\left\lceil\frac{1}{\phi}\right\rceil\),所有的\(\phi-\)频繁项都会被Misra-Gries算法检测出。

证明:由定理1可知,计数器减一的操作最多执行了\(n/k\)轮。因此,算法结束时,数据项\(i\)计数器的值\(c_i\),满足\(c_i\leq f_i\leq c_i+n/k\)。对于所有不在数组\(T\)中的数据项\(i\),有\(c_i=0\),于是\(f_i\leq n/k\leq \phi n\)。故所有满足\(f_j>\phi n\)的数据项\(j\),即所有的\(\phi-\)频繁项都会被Misra-Gries算法检测出。

参考

[1] Cormode G. Misra-Gries Summaries[M]. Springer US, 2014.

http://dimacs.rutgers.edu/~graham/pubs/papers/encalgs-mg.pdf

本文链接:www.superzhang.site/blog/misra-gries-algorithm

Misra-Gries 算法的更多相关文章

  1. &lt;2014 05 09&gt; Lucida:我的算法学习之路

    [转载] 我的算法学习之路 关于 严格来说,本文题目应该是我的数据结构和算法学习之路,但这个写法实在太绕口——况且CS中的算法往往暗指数据结构和算法(例如算法导论指的实际上是数据结构和算法导论),所以 ...

  2. B树——算法导论(25)

    B树 1. 简介 在之前我们学习了红黑树,今天再学习一种树--B树.它与红黑树有许多类似的地方,比如都是平衡搜索树,但它们在功能和结构上却有较大的差别. 从功能上看,B树是为磁盘或其他存储设备设计的, ...

  3. 分布式系列文章——Paxos算法原理与推导

    Paxos算法在分布式领域具有非常重要的地位.但是Paxos算法有两个比较明显的缺点:1.难以理解 2.工程实现更难. 网上有很多讲解Paxos算法的文章,但是质量参差不齐.看了很多关于Paxos的资 ...

  4. 【Machine Learning】KNN算法虹膜图片识别

    K-近邻算法虹膜图片识别实战 作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...

  5. 红黑树&mdash;&mdash;算法导论(15)

    1. 什么是红黑树 (1) 简介     上一篇我们介绍了基本动态集合操作时间复杂度均为O(h)的二叉搜索树.但遗憾的是,只有当二叉搜索树高度较低时,这些集合操作才会较快:即当树的高度较高(甚至一种极 ...

  6. 散列表(hash table)——算法导论(13)

    1. 引言 许多应用都需要动态集合结构,它至少需要支持Insert,search和delete字典操作.散列表(hash table)是实现字典操作的一种有效的数据结构. 2. 直接寻址表 在介绍散列 ...

  7. 虚拟dom与diff算法 分析

    好文集合: 深入浅出React(四):虚拟DOM Diff算法解析 全面理解虚拟DOM,实现虚拟DOM

  8. 简单有效的kmp算法

    以前看过kmp算法,当时接触后总感觉好深奥啊,抱着数据结构的数啃了一中午,最终才大致看懂,后来提起kmp也只剩下“奥,它是做模式匹配的”这点干货.最近有空,翻出来算法导论看看,原来就是这么简单(先不说 ...

  9. 神经网络、logistic回归等分类算法简单实现

    最近在github上看到一个很有趣的项目,通过文本训练可以让计算机写出特定风格的文章,有人就专门写了一个小项目生成汪峰风格的歌词.看完后有一些自己的小想法,也想做一个玩儿一玩儿.用到的原理是深度学习里 ...

随机推荐

  1. CRL快速开发框架系列教程六(分布式缓存解决方案)

    本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...

  2. Java集合-5. (List)已知有一个Worker 类如下: 完成下面的要求 1) 创建一个List,在List 中增加三个工人,基本信息如下: 姓名 年龄 工资 zhang3 18 3000 li4 25 3500 wang5 22 3200 2) 在li4 之前插入一个工人,信息为:姓名:zhao6,年龄:24,工资3300 3) 删除wang5 的信息 4) 利用for 循

    第六题 5. (List)已知有一个Worker 类如下: public class Worker { private int age; private String name; private do ...

  3. SQL SERVER 中的事务

    所谓事务是用户定义的一个数据库操作序列,这些操作要么全做要么全不做,是一个不可分割的工作单位.例如,在关系数据库中,一个事务可以是一条SQL语句.一组SQL语句或整个程序. 简单举个例子就是 你要同时 ...

  4. SQL UNION 操作符

    转由http://www.w3school.com.cn/sql/sql_union.asp 这个网址的数据库知识,个人推荐,因为有实例,理解更透彻一些.非广告啊,个人感觉好啊 SQL UNION 操 ...

  5. do while 与while的区别!

    #include "stdio.h" main() { ,b=; do{ //在这里do while 是先完成{}里的运算在判断while()里的循环// a=a+b; b++; ...

  6. 将ImageView中的图片保存到本地相冊

    private void SaveImageToSysAlbum() { if (FileUtil.isSdCardExist()) { BitmapDrawable bmpDrawable = (B ...

  7. iis8.0配置 使用备忘 403.14 - Forbidden Web 服务器被配置为不列出此目录的内容

    由于对iis的了解度不够,使用中总会碰到这样那样的问题,在这我先开个头,遇到问题再一一更新: 我用的是iis8; 1.发布到iis服务器下的网站你自己可以访问,局域网的其他机器不能? 答:是否开放了对 ...

  8. php文件的管理

    一.先做一下简单的查看文件功能,文件中的文件和文件夹都显示,但是双击文件夹可以显示下一级子目录,双击"返回上一级"就可以返回到上一级目录 (1)先将需要管理的文件遍历出来,可以加个 ...

  9. 【最强大的屏幕截图和标注工具】Snagit 2019.1 for Mac

    [简介] 今天和大家分享最新的 Snagit for Mac 2019.1 版本,这是Mac上最好用最强大的屏幕截图工具,Snagit功能非常强大,支持各种方式的屏幕截图,如全屏.滚动.部分.窗口.菜 ...

  10. BZOJ4779: [Usaco2017 Open]Bovine Genomics

    题目描述 Farmer John owns Ncows with spots and N cows without spots. Having just completed a course in b ...