1、给定a、b 两个文件,各存放50 亿个url,每个url 各占64 字节,内存限制
是4G,让你找出a、b 文件共同的url
2、有一个1G 大小的一个文件,里面每一行是一个词,词的大小不超过16 字节,
内存限制大小是1M,要求返回频数最高的100 个词
3、现有海量日志数据保存在一个超级大的文件中,该文件无法直接读入内存,
要求从中提取某天出访问百度次数最多的那个IP
4、128G 如何对5T 的数据的ip 做word count
5、HDFS 上有一个sample.txt 文件,里面每行存放的是登录用户的ip,不同行可
能有相同的ip,一个mapreduce 程序找到访问次数最多的ip
6、假如有一个文件大小为1G 的文本文件,每行都不超过20 个字符,可用内存
只有100M,现需要进行对该文件进行排序,请给出思路
您还不是超级VIP会员,不能查看作业,马上变身成为超级VIP会员