facebookresearch / fairseq

Facebook AI Research Sequence-to-Sequence Toolkit written in Python.
MIT License
30.37k stars 6.4k forks source link

clarification on additional_special_tokens #5559

Open hwang136 opened 2 days ago

hwang136 commented 2 days ago

Is there a map telling me which of these special tokens map to which language?

"additional_special_tokens": [ --   | "ace_Arab",   | "ace_Latn",   | "acm_Arab",   | "acq_Arab",   | "aeb_Arab",   | "afr_Latn",   | "ajp_Arab",   | "aka_Latn",   | "amh_Ethi",   | "apc_Arab",   | "arb_Arab",   | "ars_Arab",   | "ary_Arab",   | "arz_Arab",   | "asm_Beng",   | "ast_Latn",   | "awa_Deva",   | "ayr_Latn",   | "azb_Arab",   | "azj_Latn",   | "bak_Cyrl",   | "bam_Latn",   | "ban_Latn",   | "bel_Cyrl",   | "bem_Latn",   | "ben_Beng",   | "bho_Deva",   | "bjn_Arab",   | "bjn_Latn",   | "bod_Tibt",   | "bos_Latn",   | "bug_Latn",   | "bul_Cyrl",   | "cat_Latn",   | "ceb_Latn",   | "ces_Latn",   | "cjk_Latn",   | "ckb_Arab",   | "crh_Latn",   | "cym_Latn",   | "dan_Latn",   | "deu_Latn",   | "dik_Latn",   | "dyu_Latn",   | "dzo_Tibt",   | "ell_Grek",   | "eng_Latn",   | "epo_Latn",   | "est_Latn",   | "eus_Latn",   | "ewe_Latn",   | "fao_Latn",   | "pes_Arab",   | "fij_Latn",   | "fin_Latn",   | "fon_Latn",   | "fra_Latn",   | "fur_Latn",   | "fuv_Latn",   | "gla_Latn",   | "gle_Latn",   | "glg_Latn",   | "grn_Latn",   | "guj_Gujr",   | "hat_Latn",   | "hau_Latn",   | "heb_Hebr",   | "hin_Deva",   | "hne_Deva",   | "hrv_Latn",   | "hun_Latn",   | "hye_Armn",   | "ibo_Latn",   | "ilo_Latn",   | "ind_Latn",   | "isl_Latn",   | "ita_Latn",   | "jav_Latn",   | "jpn_Jpan",   | "kab_Latn",   | "kac_Latn",   | "kam_Latn",   | "kan_Knda",   | "kas_Arab",   | "kas_Deva",   | "kat_Geor",   | "knc_Arab",   | "knc_Latn",   | "kaz_Cyrl",   | "kbp_Latn",   | "kea_Latn",   | "khm_Khmr",   | "kik_Latn",   | "kin_Latn",   | "kir_Cyrl",   | "kmb_Latn",   | "kon_Latn",   | "kor_Hang",   | "kmr_Latn",   | "lao_Laoo",   | "lvs_Latn",   | "lij_Latn",   | "lim_Latn",   | "lin_Latn",   | "lit_Latn",   | "lmo_Latn",   | "ltg_Latn",   | "ltz_Latn",   | "lua_Latn",   | "lug_Latn",   | "luo_Latn",   | "lus_Latn",   | "mag_Deva",   | "mai_Deva",   | "mal_Mlym",   | "mar_Deva",   | "min_Latn",   | "mkd_Cyrl",   | "plt_Latn",   | "mlt_Latn",   | "mni_Beng",   | "khk_Cyrl",   | "mos_Latn",   | "mri_Latn",   | "zsm_Latn",   | "mya_Mymr",   | "nld_Latn",   | "nno_Latn",   | "nob_Latn",   | "npi_Deva",   | "nso_Latn",   | "nus_Latn",   | "nya_Latn",   | "oci_Latn",   | "gaz_Latn",   | "ory_Orya",   | "pag_Latn",   | "pan_Guru",   | "pap_Latn",   | "pol_Latn",   | "por_Latn",   | "prs_Arab",   | "pbt_Arab",   | "quy_Latn",   | "ron_Latn",   | "run_Latn",   | "rus_Cyrl",   | "sag_Latn",   | "san_Deva",   | "sat_Beng",   | "scn_Latn",   | "shn_Mymr",   | "sin_Sinh",   | "slk_Latn",   | "slv_Latn",   | "smo_Latn",   | "sna_Latn",   | "snd_Arab",   | "som_Latn",   | "sot_Latn",   | "spa_Latn",   | "als_Latn",   | "srd_Latn",   | "srp_Cyrl",   | "ssw_Latn",   | "sun_Latn",   | "swe_Latn",   | "swh_Latn",   | "szl_Latn",   | "tam_Taml",   | "tat_Cyrl",   | "tel_Telu",   | "tgk_Cyrl",   | "tgl_Latn",   | "tha_Thai",   | "tir_Ethi",   | "taq_Latn",   | "taq_Tfng",   | "tpi_Latn",   | "tsn_Latn",   | "tso_Latn",   | "tuk_Latn",   | "tum_Latn",   | "tur_Latn",   | "twi_Latn",   | "tzm_Tfng",   | "uig_Arab",   | "ukr_Cyrl",   | "umb_Latn",   | "urd_Arab",   | "uzn_Latn",   | "vec_Latn",   | "vie_Latn",   | "war_Latn",   | "wol_Latn",   | "xho_Latn",   | "ydd_Hebr",   | "yor_Latn",   | "yue_Hant",   | "zho_Hans",   | "zho_Hant",   | "zul_Latn"   | ],
hwang136 commented 2 days ago

So far I can only guess which one represents English but what about other languages? Is this a test to exclude people who do not have enough cultural background?