Closed Shad00Z closed 6 months ago
Halli hallo,
ich habe jetzt aus dem 30GB Trainings-Datensatz eine kleinere Menge gesampled, das sind jetzt noch 80MB, das ist doch denke ich hervorragend händelbar.
Es ist hier verfügbar: https://files.webis.de/data-in-progress/data-research/web-search/reneuir-24/triples-ms-marco-tiny.jsonl.gz
Beispiele:
wget https://files.webis.de/data-in-progress/data-research/web-search/reneuir-24/triples-ms-marco-tiny.jsonl.gz
zcat triples-ms-marco-tiny.jsonl.gz |head -2
Zugriff aus Python z.B. über:
import pandas as pd
df = pd.read_json('triples-ms-marco-tiny.jsonl.gz', lines=True)
df.head(2)
Damit sollte für die ersten Trainings-Iterationen erstmal soweit alles vorbereitet sein, oder?
train (500, 5000 and 50000) samples on cross-encoder.py
create HG Hub repository for fine tuned models
provide guide how to load and use fine tuned cross-encoder from HG Hub
get cross-encoder-custom.py to work
@mam10eks extrahiert kleine Teilmenge aus: https://msmarco.z22.web.core.windows.net/msmarcoranking/triples.train.small.tar.gz
Format hier ist: Query, POS, NEG Umwandeln in:
BERT Base Model darauf trainieren