SAPikachu / amae-koromo

雀魂牌谱屋 (See also: https://github.com/SAPikachu/amae-koromo-scripts )
https://amae-koromo.sapk.ch/
MIT License
305 stars 24 forks source link

大数据缺少金之间的选项 #90

Closed Sunshine40 closed 1 year ago

Sunshine40 commented 1 year ago

全站对局数据统计已经常态化包含了金之间的对局,不知道为什么大数据的“等级数据”页面没有提供金之间的选项呢?

请问是有什么实现上的难点吗?还是说这是可以加上去的?

另外我也想查看根据时间切片的大数据,如果实时带条件查询对服务器压力过大,能否至少支持对月间进行切片?

我这边算是提出一个提案,如果有更强烈的需求,我自己也会考虑Fork改代码,但数据只能依赖你们持有的记录了。

SAPikachu commented 1 year ago

主要是因爲服務器負載問題,目前服務器已經基本滿載,金場的數據量又非常大,比較擔憂加上之後會影響正常運作。我這邊考慮一下看看。

大數據方面,這邊有兩三年内的數據快照,我看看找個時間加到前端。

Sunshine40 commented 1 year ago

非常感谢回复,实际情况看起来比较符合我的猜想,期待能结合实际做出一个妥协方案,谢谢!

SAPikachu commented 1 year ago

等級數據的歷史快照實裝了,金的數據還得考慮一下。

Sunshine40 commented 1 year ago

等級數據的歷史快照實裝了,金的數據還得考慮一下。

我试用了一下,观察右下角“统计对战数”数字变化,我发现,没有手动选择日期选项,等同于日期选项选择了昨天当天(日期控件可选变量是单日而不是区间)。

而默认(选择昨天),统计对战数是23w多,选择最早那天(2020年10月13日),统计对战数是2w5。

本次更新之前,统计对战数是1570w以上的数量级,简单平均到日均是1w多(当然现实具体有增长过程)

但这样看来,现在的“统计对战数”,到底是什么统计量呢?日间?太多。月间?太少。

而且我选择了不同的日期选项,发现这个统计量是单调递增的。感觉如果这不是个累积量,单调递增不符合统计规律。

希望能增加点解释说明,或者检查一下统计计算方式是否有误。

SAPikachu commented 1 year ago

統計對戰數是從開始統計到快照爲止的場數,23 萬是王座的半莊數,1500 萬是全部場都選中的場數,可以確認下有選擇所有的場嗎?

Sunshine40 commented 1 year ago

原来如此,是我粗心了,看到你第一句话我恍然大悟了。谢谢提醒!

SAPikachu commented 1 year ago

另外我發現前面理解錯你的意思了,現在實裝的是在一個時間點的數據快照,按照時間段切片計算需要大量算力,暫時是沒辦法做了。

Sunshine40 commented 1 year ago

另外我發現前面理解錯你的意思了,現在實裝的是在一個時間點的數據快照,按照時間段切片計算需要大量算力,暫時是沒辦法做了。

已经很感谢你能提供这样一个查询条件了,我这边可以通过统计手段通过求数据集差值推算一些有用的内容。

Sunshine40 commented 1 year ago

另外提一个疑问:对于四玉东的早期数据,2020年10月13日后至2020年11月13日之间,四玉东的统计对战数没有任何增长。

而到2020年10月13日为止,四玉东的统计对战数总计106867

这让人对这些数据的准确性产生了怀疑。是不是丢失了时间信息的牌谱都统一被归类到某个人为指定的时间点(2020年10月13日以前)了呢?麻烦讲解一下谢谢。

SAPikachu commented 1 year ago

我記得當時的服務器有一些問題導致當天的數據無法計算,沒辦法保留快照。這種情況下服務器會返回下一個可用的快照,每個快照計算的時候都會包含當前全部可用牌譜,所以結果是沒有問題的。

Sunshine40 commented 1 year ago

我記得當時的服務器有一些問題導致當天的數據無法計算,沒辦法保留快照。這種情況下服務器會返回下一個可用的快照,每個快照計算的時候都會包含當前全部可用牌譜,所以結果是沒有問題的。

当时猫粮的服务器快照是包含所有历史数据(总量)的?好吧,也就是你认为截至2021年1月17日(该日期后统计对战数第一次变化),四玉东的对战数总计为106867是可靠的?

SAPikachu commented 1 year ago

貓糧并沒有提供詳細的數據,快照是我這邊的服務器計算的,所以這邊可以確定統計的範圍,對戰數在快照生成的時間點大致上是正確的(有可能會有小部分對局未處理完畢沒有納入計算)。

Sunshine40 commented 1 year ago

也就是除了我对你的“服务器快照”指代理解有误,后半部分的统计量含义解释是被你认可的?

SAPikachu commented 1 year ago

對的

Sunshine40 commented 1 year ago

了解了,谢谢

SAPikachu commented 1 year ago

沒事。爲了減少誤解我把按鈕上面的日期改成數據生成時間了。

SAPikachu commented 1 year ago

金之间的大数据已实装。