Open gaohang opened 4 years ago
这个结构以utf16为码表,不适合储存大词典。汉字的Unicode区间为0x4E00--0x9FA5,比较分散。你可以尝试用字节做码表。
Compared with hashmap, DAT consumes less memory. However, hashmap of 100000000 docs can be build in memory, while DAT with 10000000 docs leads to OOM?
字典容量有什么限制吗? 机器内存是64G,内存够用应该。