感觉弹幕收集、弹幕检索和弹幕分类还可以改进一下

9WiSHao / sb6657

玩机器烂梗收集网站，6657玩小将的在线批事本

Apache License 2.0

81 stars 7 forks source link

弹幕收集可以用Scrapy去爬玩机器的直播，鉴于他播一休七可以定期扫描一下录播弹幕。弹幕检索的话，每场比赛弹幕量肯定是上万量级的，这样去重的复杂度会很高，可以把每个弹幕哈希成一个16bit特征码，之后建一个B+树进行检索（数据库这块不太专业，可能有更高效的办法），这样计算量应该能支持弹幕的实时检索去重录入。如果不自己造轮子用ElasticSearch应该也挺方便。弹幕分类可以用预训练或者LLM模型做无监督打标签，也可以用k-means做聚类，手动打标签做成初始数据训练模型，之后录入的弹幕就用这个模型分类，准确度应该会比无监督方法高一些。

9WiSHao / sb6657

感觉弹幕收集、弹幕检索和弹幕分类还可以改进一下 #1