davidkim205 / translation

11 stars 3 forks source link

학습 데이터셋 번역(~?) #47

Closed sudog1 closed 4 months ago

sudog1 commented 5 months ago

description

대용량 데이터셋을 google과 iris_7b를 사용하여 번역 후 높은 bleu score데이터만 선별

task

blip_laion_cc_sbu_558k

원본
{
    "id":"005947502",
    "image":"00594/005947502.jpg",
    "conversations":[
        {
            "from":"human",
            "value":"<image>\nWhat is this?"
        },
        {
            "from":"gpt",
            "value":"a dragon kite flying in the blue sky stock images"
        }
    ]
}
번역본
{
    "id":"005947502",
    "image":"00594/005947502.jpg",
    "conversations":[
        {
            "from":"human",
            "value":"<image>\n이것은 무엇입니까?"
        },
        {
            "from":"gpt",
            "value":"푸른 하늘을 나는 용 연 스톡 이미지"
        }
    ]
}
davidkim205 commented 4 months ago

차후에 진행할때 다시 시작할예정