Closed ChunelFeng closed 3 years ago
几百g的文件,不能同时加载到内存,那是怎么能分成一个个4g大小的文件的。 如果说一个几百g的文件能一点点加载进内存,那为什么还要划分成4g大小的文件,然后再一个个4g文件的导入内存做操作? 直接一点点的加载,做hash不是更快吗?
你问我啊?
------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2022年2月25日(星期五) 下午3:04 收件人: @.>; 抄送: @.***>; 主题: Re: [doocs/advanced-java] 可以考虑使用字典树 (#212)
几百g的文件,不能同时加载到内存,那是怎么能分成一个个4g大小的文件的。 如果说一个几百g的文件能一点点加载进内存,那为什么还要划分成4g大小的文件,然后再一个个4g文件的导入内存做操作? 直接一点点的加载,做hash不是更快吗?
— Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you are subscribed to this thread.Message ID: @.***>
我问写这篇文章的人呀
why not reply me, 百g文件为啥不一次次加载4g内容做哈希,反而要先分成4g文件再一个个哈希,这不是浪费时间嘛?
问的好,因为有的内存块最大支持4个g
张泓锐 | |
---|---|
@.*** | 签名由网易邮箱大师定制
在2022年02月25日 @.***> 写道:
why not reply me, 百g文件为啥不一次次加载4g内容做哈希,反而要先分成4g文件再一个个哈希,这不是浪费时间嘛?
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.***>
ok | zhr | |
---|---|---|
@.*** | 签名由网易邮箱大师定制
在2022年02月25日 @.***> 写道: 问的好,因为有的内存块最大支持4个g
张泓锐 | |
---|---|
@.*** | 签名由网易邮箱大师定制
在2022年02月25日 @.***> 写道:
why not reply me, 百g文件为啥不一次次加载4g内容做哈希,反而要先分成4g文件再一个个哈希,这不是浪费时间嘛?
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.***>
朋友,不能光是分治或者hash啊。url的长度差距不大,而且前面几个字符,绝大部份相同。 这种情况,非常适合使用 字典树(trie tree) 这种数据结构来进行存储。 降低存储成本的同时,提高查询效率。