开发者

单机海量哈希去重算法?

360U3058061266 9小时前

开发者_开发百科

硬盘最好是2个,避免读写冲突。 第二个空硬盘当作平坦空间用,用来标记重复值,而不是把哈希值从A盘复制出来。


a397460849 开发者_JAVA百科 9小时前

直接用Hadoop行不行~


kulongdo 9小时前

开发者_如何学JAVA

哈希值是128位的,只要其中1位不同,就不是重复的。所以,不用太复杂的比较算法,只要抽取其中一部分进行比对就行了。比如,只比较每个哈希值的低64位。这样能过滤掉大部分值。


大龙猫家 开发者_如何学编程 9小时前

之前做过去除几百G的DNA序列中的重复序列,感觉和这个问题类似(假设你的文件一行一个hash),buffsize给的是30G(在集群上跑了一天),不知道你这个512M要跑多久...


萌叔之吻 9小时前

开发者_运维技巧

这个得用布隆过滤器


柳栋 9小时前

开发者_JAVA百科

1.我觉得这类问题出现频率很高的,比如面试,笔试题中,所以一般Google一把,都能找到比较详细的答案的。2.hash去重应该可以用这个算法Bloom Filter


0

上一篇:

下一篇:

精彩评论

暂无评论...
验证码 换一张
取 消

最新问答

问答排行榜