Closed watoli closed 8 months ago
弹幕收集可以用Scrapy去爬玩机器的直播,鉴于他播一休七可以定期扫描一下录播弹幕。 弹幕检索的话,每场比赛弹幕量肯定是上万量级的,这样去重的复杂度会很高,可以把每个弹幕哈希成一个16bit特征码,之后建一个B+树进行检索(数据库这块不太专业,可能有更高效的办法),这样计算量应该能支持弹幕的实时检索去重录入。如果不自己造轮子用ElasticSearch应该也挺方便。 弹幕分类可以用预训练或者LLM模型做无监督打标签,也可以用k-means做聚类,手动打标签做成初始数据训练模型,之后录入的弹幕就用这个模型分类,准确度应该会比无监督方法高一些。
两眼一黑
我认为烂梗属于弹幕精华,孔子的论语也不是孔子说的什么话都能入选的,经典烂梗属于那种人看见就有收藏欲望的类别。如果按你说的这样做,最后成了玩机器直播间观众弹幕大数据集了,有违背我初衷,即收藏精华烂梗
这个真的不考虑,还是算了
弹幕收集可以用Scrapy去爬玩机器的直播,鉴于他播一休七可以定期扫描一下录播弹幕。 弹幕检索的话,每场比赛弹幕量肯定是上万量级的,这样去重的复杂度会很高,可以把每个弹幕哈希成一个16bit特征码,之后建一个B+树进行检索(数据库这块不太专业,可能有更高效的办法),这样计算量应该能支持弹幕的实时检索去重录入。如果不自己造轮子用ElasticSearch应该也挺方便。 弹幕分类可以用预训练或者LLM模型做无监督打标签,也可以用k-means做聚类,手动打标签做成初始数据训练模型,之后录入的弹幕就用这个模型分类,准确度应该会比无监督方法高一些。