webis-de / RENEUIR-24

The participation of the FSU team at ReNeuIR 2024.
1 stars 0 forks source link

Trainiere BERT Base auf kleinem Ausschnitt von MS MARCO #2

Closed Shad00Z closed 2 months ago

Shad00Z commented 2 months ago

@mam10eks extrahiert kleine Teilmenge aus: https://msmarco.z22.web.core.windows.net/msmarcoranking/triples.train.small.tar.gz

Format hier ist: Query, POS, NEG Umwandeln in:

BERT Base Model darauf trainieren

mam10eks commented 2 months ago

Halli hallo,

ich habe jetzt aus dem 30GB Trainings-Datensatz eine kleinere Menge gesampled, das sind jetzt noch 80MB, das ist doch denke ich hervorragend händelbar.

Es ist hier verfügbar: https://files.webis.de/data-in-progress/data-research/web-search/reneuir-24/triples-ms-marco-tiny.jsonl.gz

Beispiele:

wget https://files.webis.de/data-in-progress/data-research/web-search/reneuir-24/triples-ms-marco-tiny.jsonl.gz
zcat triples-ms-marco-tiny.jsonl.gz |head -2

Zugriff aus Python z.B. über:

import pandas as pd
df = pd.read_json('triples-ms-marco-tiny.jsonl.gz', lines=True)
df.head(2)

Damit sollte für die ersten Trainings-Iterationen erstmal soweit alles vorbereitet sein, oder?

Integer-Ctrl commented 2 months ago