Redis应用-HyperLogLog

栏目: 数据库 · 发布时间: 5年前

内容简介:如果你要统计网站的PV,你可以使用Redis计数器就好了,每来一个请求,调用一次

如果你要统计网站的PV,你可以使用 Redis 计数器就好了,每来一个请求,调用一次 incrby 即可。但是如果要统计UV就没那么简单呢,它需要去重,当然你肯定想到了Redis中的去重的 Set 集合,当一个请求过来使用 sadd 添加用户ID,通过 scard 取出集合的大小。但是如果上千万的UV,使用集合来统计,就非常浪费空间了。而Redis提供的 HyperLogLog 数据结构正是来解决这类统计问题的,当然在数据量很大的情况下,他会有一定的误差。

HyperLogLog 算法是一种非常巧妙的近似统计海量去重元素数量的算法。它内部维护了 16384 个桶(bucket)来记录各自桶的元素数量。当一个元素到来时,它会散列到其中一个桶,以一定的概率影响这个桶的计数值。因为是概率算法,所以单个桶的计数值并不准确,但是将所有的桶计数值进行调合均值累加起来,结果就会非常接近真实的计数值。

Redis应用-HyperLogLog

具体的原理解析可参考探索HyperLogLog算法(https://www.jianshu.com/p/55defda6dcd2)

使用方法

HyperLogLog 使用比较简单,主要提供提供了两个指令

  • pfadd 增加计数

  • pfcount 获取计数

HyperLogLog还提供了第三个指令 pfmerge ,用于将多个 pf 计数值累加在一起形成一个新的 pf 值。

比如在网站中我们有两个内容差不多的页面,运营需要将两个页面的数据进行合并。其中页面的 UV 访问量也需要合并,这时候就可以使用 pfmerge

pf 的内存只有12k

HyperLogLog 实现中用到的是 16384 个桶,也就是 2^14,每个桶的 maxbits 需要 6 个 bits 来存储,最大可以表示 maxbits=63,于是总共占用内存就是2^14 * 6 / 8 = 12k字节


以上所述就是小编给大家介绍的《Redis应用-HyperLogLog》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

领域驱动设计

领域驱动设计

埃文斯 / 赵俐、盛海艳、刘霞 / 人民邮电出版社 / 2010-11 / 69.00元

《领域驱动设计:软件核心复杂性应对之道》是领域驱动设计方面的经典之作。全书围绕着设计和开发实践,结合若干真实的项目案例,向读者阐述如何在真实的软件开发中应用领域驱动设计。书中给出了领域驱动设计的系统化方法,并将人们普遍接受的一些最佳实践综合到一起,融入了作者的见解和经验,展现了一些可扩展的设计最佳实践、已验证过的技术以及便于应对复杂领域的软件项目开发的基本原则。《领域驱动设计:软件核心复杂性应对之......一起来看看 《领域驱动设计》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码