SKT-AI / KoGPT2

Korean GPT-2 pretrained cased (KoGPT2)
Other
532 stars 98 forks source link

Fix typo in README.MD #51

Closed ddobokki closed 2 years ago

ddobokki commented 2 years ago

예제

> from transformers import PreTrainedTokenizerFast
> tokenizer = PreTrainedTokenizerFast.from_pretrained("skt/kogpt2-base-v2",
  bos_token='</s>', eos_token='</s>', unk_token='<unk>',
  pad_token='<pad>', mask_token='<mask>') 
> tokenizer.tokenize("안녕하세요. 한국어 GPT-2 입니다.😤:)l^o")
['▁안녕', '하', '세', '요.', '▁한국어', '▁G', 'P', 'T', '-2', '▁입', '니다.', '😤', ':)', 'l^o']

부분에서 bos_token과 eos_token이 같이 <\/s>로 표기되어 있던 것을 수정했습니다.

haven-jeon commented 2 years ago

bos, eos 토큰 구분없이 같이 사용해 학습해서 현재 README 내용이 맞습니다.