Kevinello / gitalk

0 stars 0 forks source link

Open utterances-bot opened 3 years ago

utterances-bot commented 3 years ago

ReBucket算法总结 | Kevinello

前言这次接触ReBucket算法是在实际需求中需要完成一个落地的相关功能模块，也算是少有的复现论文到落地项目的功能模块的机会了，这里做一下算法本身的总结，有关的实现后续会放在另一篇文章中几个需要了解的词 PDM：位置相关模型（Position Dependent Model）并查

Napoleon-WONG559 commented 3 years ago

你好，请问”具体实现“所在的文章是哪一篇呢？

Kevinello commented 3 years ago

目前还在落地阶段，缺数据（初步方案从公司内部的项目协同平台上收集数据）如果落地效果不错的话我会写的hh

Napoleon-WONG559 commented 3 years ago

了解哈哈，我现在也是愁数据来源看完以后我觉得聚类那一步是不是单独将集群作为一个数据结构保存会更好呢，这样也可以将数据保存到数据库中，并且而堆栈只需要打上对应的集群标签就可以了，比用isSimilar可能更加直观和可扩展性更强

Kevinello commented 2 years ago

我目前的方案是redis+pg，缓存策略基本上是write back，bucket完整存在redis内保证聚类的实时性（我们的系统对实时性要求比较高），另外落地的时候也不是这样的层次聚类方法（批处理）了，数据是一条一条来的，这方面也做了一下适配这个月看看有没有时间写一下方案hh

ZhangShurong commented 2 years ago

666666

goeasya commented 1 year ago

数据一条条的来，怎么和已有的bucket做匹配聚类呢？如果每一个bucket中，提取出一些代表性的堆栈信息，然后新来的堆栈与bucket再做相似度匹配，但这样的时间复杂度也上去了。