speakleash / speakleash-instruct-creator

Generate instructions datasets for the fine-tuning purposes.
3 stars 5 forks source link

Translation instructions #59

Closed IgorTest19 closed 1 month ago

IgorTest19 commented 4 months ago

ENG. Based on the 2 files uploaded by Spatium, create an instruction file.

The packets contain .txt files for per article/book translations. They usually contain 3 items of related translations:

The files can be merged, removing potentially empty records. The output file format of the instructions is .json. The contents of the files are worth reviewing roughly for content validity.

Suggestion from Spatium: You can choose translations whose lengths for Polish and English text are similar. It happens that the translation is shorter or longer even 2x

POL. Na bazie 2 plików przesłanych przez Spatium, należy utworzyć plik instrukcji.

Paczki zawierają pliki w formacie .txt dla tłumaczenia per artykuł/książka. Zazwyczaj zawierają one 3 pozycje powiązanych tłumaczeń:

Pliki można zmergować, usuwając potencjalnie puste rekordy. Format pliku wyjściowego instrukcji to .json. Treść plików warto z grubsza przejrzeć pod kątem poprawności treści.

Sugestia od Spatium: Można wybierać tłumaczenia, których długości dla tekstu polskiego i angielskiego są podobne. Zdarza się, że tłumaczenie jest krótsze lub dłuższe nawet 2x

IgorTest19 commented 1 month ago

@mglabska has done it.