Closed ravindranantony closed 5 months ago
Since the SFT stage is largely dependent on machine translated data (at least for now) these issues do occur from time to time. Also, the pretraining stage contains a lot of news data where writing English words in Tamil is pretty common (might be necessary sometimes) and I suspect that is how the model learns these bad practices from.
When asking for a poem,
இரவு வானத்தில், இளஞ்சிவப்பு மற்றும் ஊதா நிறங்களின் கேன்வாஸ், அழகான காட்சி, அது நம்மைத் தொடும்போது, நட்சத்திரங்கள் மின்னும் போது, அமைதியான காதல் வருகிறது.
In this the word கேன்வாஸ் should be a tamil word not a tanglish word.