海量数据处理合辑

如何从大量的 URL 中找出相同的 URL?题目描述给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。 解答思路1. 分治策略每个 URL 占 64B,那么 50 亿个 URL 占用的空间大小约为 320GB。 5, 000, 000, 000 _ 64B ≈ 5GB _ 64 = 320GB 由...

海量数据Top K问题

问题引入:10亿个数中找出最大的10000个数(top K问题)

海量数据下,如何快速查找一条记录?

1、使用布隆过滤器,快速过滤不存在的记录。 使用Redis的bitmap结构来实现布隆过滤器。 2、在Redis中建立数据缓存。将我们对Redis使用场景的理解尽量表达出来。 以普通字符串的形式来存储,(userld -> user.json)。 以一个hash来存储一条记录(userld key-> username field-> ,userAge->)。以一...