lewenweijia / notes

🏊 dive dive diving
1 stars 0 forks source link

解题思路 #23

Open lewenweijia opened 4 years ago

lewenweijia commented 4 years ago
// 大数据去重?:
// 一.  哈希压缩
// 1. 哈希取模落多文件 %10 落到10个文件里面的啊
// 2. 文件排序, 搜集重复哈希列表
// 3. 电话重新走哈希, 删除重复的号码
// e.g. 1. 怎么对10亿个电话号码进行去重
// 二. 位图处理
lewenweijia commented 4 years ago

例题

有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求按照query的频度排序。
1. 哈希 & 取模, 落多个文件. 例如 %10, 落10个文件 -> 每个文件1G
2.  文件单独处理, 每个文件用哈希表统计频率, 并排序
3. 对10个结果文件进行多路归并