Open HMJW opened 2 years ago
老师,我这边把您补充的东西都填上去了。 还有几个问题就是 recaller.py脚本中, line 74的BatchHardTripletLoss好像是缺失的 line 204中的epoch参数是从哪里传入的呢?
line 74删掉 没用。 从train函数里传过去,或者不用打印这个信息,用tqdm看的清楚一点
老师好,我今天打算尝试一下生成一些格式正确的数据来把程序跑起来,有哪几个默认的文件是缺少的呢,我初看了下有个“default.ini”文件,我想看一下是怎么组织的,来准备生成相关的数据结构和文件结构~
老师好,我今天打算尝试一下生成一些格式正确的数据来把程序跑起来,有哪几个默认的文件是缺少的呢,我初看了下有个“default.ini”文件,我想看一下是怎么组织的,来准备生成相关的数据结构和文件结构~
看一下pull request,合一下就能跑了
老师早上好,我最近打算着手开始做数据调研的相关工作了,具体的要求是怎样呢?比如说数据的要求,我是通过来看发布这个数据集的论文来进行数据的调研和需求匹配嘛?
老师早上好,我最近打算着手开始做数据调研的相关工作了,具体的要求是怎样呢?比如说数据的要求,我是通过来看发布这个数据集的论文来进行数据的调研和需求匹配嘛?
关注semantic search、ad hoc retrieve、community-based QA、information retrieval、ranking等任务,如果该数据集在近年的顶会论文上被用到这些任务上就可以了。这里有一些参考https://www.sbert.net/examples/applications/semantic-search/README.html#
老师早上好,我最近打算着手开始做数据调研的相关工作了,具体的要求是怎样呢?比如说数据的要求,我是通过来看发布这个数据集的论文来进行数据的调研和需求匹配嘛?
优先找一下community-based QA任务数据集(检索式问答),或者symmetric semantic search。
https://arxiv.org/pdf/2110.05789.pdf看一下这篇论文用的两个数据集 好像和你说过 能不能下载到
https://microsoft.github.io/msmarco/TREC-Deep-Learning-2019.html 老师,我找到了这个guideline,里面有document rank和passage rank的两个数据集
我感觉cmedQA好像和我们这个类似,但是是query和答案做匹配的,数据集应该比较简单,可以考虑先跑我们的baseline(或者在群里问问两位老师们)。查查还有没有类似的。
好的老师,我今晚尝试把数据处理出来然后跑出来; 这里跑baseline的话,意思是说我用这个数据来分别跑fast_text和BERT两个模型嘛? 评估的过程是说:在使用faiss的时候,测试集的答案输出是和训练集中的所有问题进行search并排序,然后输出对应的训练集的这些问题的正样本答案嘛?我不知道我这么理解有没有问题。
先不急 找时间给你讲一下 因为需要改代码,而且我们目前的代码还不完善,只有召回部分模型。
好的老师~前两天李老师说咱们要不要这几天约个会,我觉得可以说一下数据集调研的问题,看看其余两位老师能不能给一些参考性意见?
发自我的iPhone
------------------ Original ------------------ From: hmjw @.> Date: Tue,Feb 22,2022 3:25 PM To: ImmortalCi/QA-HW @.> Cc: ImmortalCi @.>, Comment @.> Subject: Re: [ImmortalCi/QA-HW] codes (Issue #1)
先不急 找时间给你讲一下 因为需要改代码,而且我们目前的代码还不完善,只有召回部分模型。
— Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you commented.Message ID: @.***>
你在群里问一下老师们啥时候有空吧 我都行。
str2encoder就是{"fast_text": FastTextEncoder, "bert": BertEncoder}这样一个dict,你放init.py里或者recaller.py都行。 train_epoch函数用你注释掉的那个,batchloss先别用。 str2scorer和str2encoder类似,存放的是判断两个向量之间相似度的模块,现在就用cosine函数就行。可以参考下面代码: