AI4Bharat / indicTrans

indicTranslate v1 - Machine Translation for 11 Indic languages. For latest v2, check: https://github.com/AI4Bharat/IndicTrans2
https://ai4bharat.iitm.ac.in/indic-trans
MIT License
119 stars 31 forks source link

Mixed language translation issue #35

Closed ayushbits closed 2 years ago

ayushbits commented 2 years ago

Hi,

When I translate a source sentence containing mix of English and Hindi words into target language Hindi, random words appear for Hindi words. For eg.

High Commission of India, India House, माझगाव डॉक शिपबिल्डर्स लिमिटेड Mazagon Dock Shipbuilders Limited

Corresponding Hindi Translation

भारतीय उच्चायोग, इंडिया हाउस, एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज एक्सरसाइज मझगांव डॉक शिपबिल्डर्स लिमिटेड

I used joint_translate.sh script for translation.

Thanks

gowtham1997 commented 2 years ago

The model hasn't been trained/tested with code-mixed data. So this noisy output is sort of expected.

If the English words are named entities, you can try to transliterate them to hindi script (so that the full sentence is in hindi) and try again.