Marlowe
博客
分类
标签
归档
友链
关于
博客
分类
标签
归档
友链
关于
Volantis
文档
帮助
示例
社区
博客
源码
海量数据处理合辑
如何从大量的 URL 中找出相同的 URL?题目描述给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。 解答思路1. 分治策略每个 URL 占 64B,那么 50 亿个 URL 占用的空间大小约为 320GB。 5, 000, 000, 000 _ 64B ≈ 5GB _ 64 = 320GB 由...
2021-08-23
大数据
Read More
海量数据Top K问题
问题引入:10亿个数中找出最大的10000个数(top K问题)
2021-05-07
大数据
Read More
海量数据下,如何快速查找一条记录?
1、使用布隆过滤器,快速过滤不存在的记录。 使用Redis的bitmap结构来实现布隆过滤器。 2、在Redis中建立数据缓存。将我们对Redis使用场景的理解尽量表达出来。 以普通字符串的形式来存储,(userld -> user.json)。 以一个hash来存储一条记录(userld key-> username field-> ,userAge->)。以一...
2021-05-04
大数据
Read More