Marlowe
博客
分类
标签
归档
友链
关于
博客
分类
标签
归档
友链
关于
Volantis
文档
帮助
示例
社区
博客
源码
海量数据处理合辑
如何从大量的 URL 中找出相同的 URL?题目描述给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。 解答思路1. 分治策略每个 URL 占 64B,那么 50 亿个 URL 占用的空间大小约为 320GB。 5, 000, 000, 000 _ 64B ≈ 5GB _ 64 = 320GB 由...
2021-08-23
大数据
Read More