aiwannafly / semantics-analysis-system

System of several deep learning networks responsible for terms extraction, terms classification and relations retrieval.
0 stars 0 forks source link

Improve dataset samples #11

Open aiwannafly opened 3 months ago

aiwannafly commented 3 months ago

Currently some examples in our dataset are not fully correct. We should find the problem samples and update them.

I suggest to store the examples in the issue.

@pasukka

aiwannafly commented 3 months ago

Valid relations that are marked as not_found:

{
    "text": "В ходе участия команды в DSTC8 была разработана модель GOLOMB (GOaL-Oriented Multi-task BERT-based dialogue state tracker) — целеориентированная мультизадачная модель на базе BERT для отслеживания состояния диалога.",
    "relation": "(GOLOMB) isModificationOf (BERT)"
}
{
    "text": "Примером данного решения является использование парафрайзера на основе “rut5-base-paraphraser” из библиотеки huggingface.",
    "relation": "(парафрайзера) isModificationOf (rut5-base-paraphraser)"
}
{
    "examples": [
        {
            "text": "В основу бенчмарка легли BERT-подобные модели: sbert_large_nlu_ru, sbert_large_mt_nlu_ru, и ruRoberta-large от Сбера; rubert-base-cased-sentence, rubert-base-cased-conversational, distilrubert-tiny-cased-conversational, и distilrubert-base-cased-conversational от DeepPavlov; мои   rubert-tiny и rubert-tiny2; мультиязычные LaBSE (плюс урезанная версия LaBSE-en-ru) и старый добрый bert-base-multilingual-cased.",
            "relation": "(rubert-base-cased-conversational) isModificationOf (BERT-подобные модели)"
          },
          {
            "text": "В основу бенчмарка легли BERT-подобные модели: sbert_large_nlu_ru, sbert_large_mt_nlu_ru, и ruRoberta-large от Сбера; rubert-base-cased-sentence, rubert-base-cased-conversational, distilrubert-tiny-cased-conversational, и distilrubert-base-cased-conversational от DeepPavlov; мои   rubert-tiny и rubert-tiny2; мультиязычные LaBSE (плюс урезанная версия LaBSE-en-ru) и старый добрый bert-base-multilingual-cased.",
            "relation": "(LaBSE) isModificationOf (BERT-подобные модели)"
          },
          {
            "text": "В основу бенчмарка легли BERT-подобные модели: sbert_large_nlu_ru, sbert_large_mt_nlu_ru, и ruRoberta-large от Сбера; rubert-base-cased-sentence, rubert-base-cased-conversational, distilrubert-tiny-cased-conversational, и distilrubert-base-cased-conversational от DeepPavlov; мои   rubert-tiny и rubert-tiny2; мультиязычные LaBSE (плюс урезанная версия LaBSE-en-ru) и старый добрый bert-base-multilingual-cased.",
            "relation": "(rubert-base-cased-sentence) isModificationOf (BERT-подобные модели)"
          },
          {
            "text": "В основу бенчмарка легли BERT-подобные модели: sbert_large_nlu_ru, sbert_large_mt_nlu_ru, и ruRoberta-large от Сбера; rubert-base-cased-sentence, rubert-base-cased-conversational, distilrubert-tiny-cased-conversational, и distilrubert-base-cased-conversational от DeepPavlov; мои   rubert-tiny и rubert-tiny2; мультиязычные LaBSE (плюс урезанная версия LaBSE-en-ru) и старый добрый bert-base-multilingual-cased.",
            "relation": "(ruRoberta-large) isModificationOf (BERT-подобные модели)"
          },
          {
            "text": "В основу бенчмарка легли BERT-подобные модели: sbert_large_nlu_ru, sbert_large_mt_nlu_ru, и ruRoberta-large от Сбера; rubert-base-cased-sentence, rubert-base-cased-conversational, distilrubert-tiny-cased-conversational, и distilrubert-base-cased-conversational от DeepPavlov; мои   rubert-tiny и rubert-tiny2; мультиязычные LaBSE (плюс урезанная версия LaBSE-en-ru) и старый добрый bert-base-multilingual-cased.",
            "relation": "(distilrubert-tiny-cased-conversational) isModificationOf (BERT-подобные модели)"
          },
          {
            "text": "В основу бенчмарка легли BERT-подобные модели: sbert_large_nlu_ru, sbert_large_mt_nlu_ru, и ruRoberta-large от Сбера; rubert-base-cased-sentence, rubert-base-cased-conversational, distilrubert-tiny-cased-conversational, и distilrubert-base-cased-conversational от DeepPavlov; мои   rubert-tiny и rubert-tiny2; мультиязычные LaBSE (плюс урезанная версия LaBSE-en-ru) и старый добрый bert-base-multilingual-cased.",
            "relation": "(rubert-tiny2) isModificationOf (BERT-подобные модели)"
          },
          {
            "text": "В основу бенчмарка легли BERT-подобные модели: sbert_large_nlu_ru, sbert_large_mt_nlu_ru, и ruRoberta-large от Сбера; rubert-base-cased-sentence, rubert-base-cased-conversational, distilrubert-tiny-cased-conversational, и distilrubert-base-cased-conversational от DeepPavlov; мои   rubert-tiny и rubert-tiny2; мультиязычные LaBSE (плюс урезанная версия LaBSE-en-ru) и старый добрый bert-base-multilingual-cased.",
            "relation": "(bert-base-multilingual-cased) isModificationOf (BERT-подобные модели)"
          },
          {
            "text": "В основу бенчмарка легли BERT-подобные модели: sbert_large_nlu_ru, sbert_large_mt_nlu_ru, и ruRoberta-large от Сбера; rubert-base-cased-sentence, rubert-base-cased-conversational, distilrubert-tiny-cased-conversational, и distilrubert-base-cased-conversational от DeepPavlov; мои   rubert-tiny и rubert-tiny2; мультиязычные LaBSE (плюс урезанная версия LaBSE-en-ru) и старый добрый bert-base-multilingual-cased.",
            "relation": "(LaBSE-en-ru) isModificationOf (BERT-подобные модели)"
          },
          {
            "text": "В основу бенчмарка легли BERT-подобные модели: sbert_large_nlu_ru, sbert_large_mt_nlu_ru, и ruRoberta-large от Сбера; rubert-base-cased-sentence, rubert-base-cased-conversational, distilrubert-tiny-cased-conversational, и distilrubert-base-cased-conversational от DeepPavlov; мои   rubert-tiny и rubert-tiny2; мультиязычные LaBSE (плюс урезанная версия LaBSE-en-ru) и старый добрый bert-base-multilingual-cased.",
            "relation": "(distilrubert-base-cased-conversational) isModificationOf (BERT-подобные модели)"
          },
          {
            "text": "В основу бенчмарка легли BERT-подобные модели: sbert_large_nlu_ru, sbert_large_mt_nlu_ru, и ruRoberta-large от Сбера; rubert-base-cased-sentence, rubert-base-cased-conversational, distilrubert-tiny-cased-conversational, и distilrubert-base-cased-conversational от DeepPavlov; мои   rubert-tiny и rubert-tiny2; мультиязычные LaBSE (плюс урезанная версия LaBSE-en-ru) и старый добрый bert-base-multilingual-cased.",
            "relation": "(rubert-tiny) isModificationOf (BERT-подобные модели)"
          },
          {
            "text": "В основу бенчмарка легли BERT-подобные модели: sbert_large_nlu_ru, sbert_large_mt_nlu_ru, и ruRoberta-large от Сбера; rubert-base-cased-sentence, rubert-base-cased-conversational, distilrubert-tiny-cased-conversational, и distilrubert-base-cased-conversational от DeepPavlov; мои   rubert-tiny и rubert-tiny2; мультиязычные LaBSE (плюс урезанная версия LaBSE-en-ru) и старый добрый bert-base-multilingual-cased.",
            "relation": "(sbert_large_mt_nlu_ru) isModificationOf (BERT-подобные модели)"
          },
          {
            "text": "В основу бенчмарка легли BERT-подобные модели: sbert_large_nlu_ru, sbert_large_mt_nlu_ru, и ruRoberta-large от Сбера; rubert-base-cased-sentence, rubert-base-cased-conversational, distilrubert-tiny-cased-conversational, и distilrubert-base-cased-conversational от DeepPavlov; мои   rubert-tiny и rubert-tiny2; мультиязычные LaBSE (плюс урезанная версия LaBSE-en-ru) и старый добрый bert-base-multilingual-cased.",
            "relation": "(sbert_large_nlu_ru) isModificationOf (BERT-подобные модели)"
          }
    ]
}

In this example RussianSuperGLUE is closer to Metric rather than Model:

{
    "text": "Для русского языка тоже было создано немало разного рода бенчмарков NLU моделей:RussianSuperGLUE: бенчмарк \"сложных\" NLP задач; фокус на дообучаемых моделях.",
    "relation": "(RussianSuperGLUE) isModificationOf (NLU моделей)"
}

@pasukka

pasukka commented 3 months ago

In this example RussianSuperGLUE is closer to Metric rather than Model:

{
  "text": "Для русского языка тоже было создано немало разного рода бенчмарков NLU моделей:RussianSuperGLUE: бенчмарк \"сложных\" NLP задач; фокус на дообучаемых моделях.",
  "relation": "(RussianSuperGLUE) isModificationOf (NLU моделей)"
}

Done