Trainiere BERT Base auf kleinem Ausschnitt von MS MARCO

Shad00Z commented 2 months ago

@mam10eks extrahiert kleine Teilmenge aus: https://msmarco.z22.web.core.windows.net/msmarcoranking/triples.train.small.tar.gz

Format hier ist: Query, POS, NEG Umwandeln in:

Query, POS, 1
Query, NEG, 0

BERT Base Model darauf trainieren

mam10eks commented 2 months ago

Halli hallo,

ich habe jetzt aus dem 30GB Trainings-Datensatz eine kleinere Menge gesampled, das sind jetzt noch 80MB, das ist doch denke ich hervorragend händelbar.

Es ist hier verfügbar: https://files.webis.de/data-in-progress/data-research/web-search/reneuir-24/triples-ms-marco-tiny.jsonl.gz

Beispiele:

wget https://files.webis.de/data-in-progress/data-research/web-search/reneuir-24/triples-ms-marco-tiny.jsonl.gz
zcat triples-ms-marco-tiny.jsonl.gz |head -2

Zugriff aus Python z.B. über:

import pandas as pd
df = pd.read_json('triples-ms-marco-tiny.jsonl.gz', lines=True)
df.head(2)

Damit sollte für die ersten Trainings-Iterationen erstmal soweit alles vorbereitet sein, oder?

Integer-Ctrl commented 2 months ago

train (500, 5000 and 50000) samples on cross-encoder.py
create HG Hub repository for fine tuned models
provide guide how to load and use fine tuned cross-encoder from HG Hub
get cross-encoder-custom.py to work

webis-de / RENEUIR-24

Trainiere BERT Base auf kleinem Ausschnitt von MS MARCO #2