Open lewenweijia opened 4 years ago
// 大数据去重?: // 一. 哈希压缩 // 1. 哈希取模落多文件 %10 落到10个文件里面的啊 // 2. 文件排序, 搜集重复哈希列表 // 3. 电话重新走哈希, 删除重复的号码 // e.g. 1. 怎么对10亿个电话号码进行去重 // 二. 位图处理
有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求按照query的频度排序。 1. 哈希 & 取模, 落多个文件. 例如 %10, 落10个文件 -> 每个文件1G 2. 文件单独处理, 每个文件用哈希表统计频率, 并排序 3. 对10个结果文件进行多路归并