Open davelab6 opened 8 years ago
In http://typedrawers.com/discussion/comment/16531/#Comment_16531 Kent Lew provides the following language charsets for Cyrillic, which he has given me permission to include with attribution:
cyrlLangChars = { # Slavic Languages 'Russian': u'АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнопрстуфхцчшщъыьэюя', 'Belarusian': u'АБВГДЕЁЖЗІЙКЛМНОПРСТУЎФХЦЧШЫЬЭЮЯабвгдеёжзійклмнопрстуўфхцчшыьэюя', 'Ukrainian': u'АБВГҐДЕЄЖЗИІЇЙКЛМНОПРСТУФХЦЧШЩЬЮЯабвгґдеєжзиіїйклмнопрстуфхцчшщьюя', 'Rusyn': u'АБВГҐДЕЁЄЖЗИІЇЙКЛМНОПРСТУФХЦЧШЩЪЫЬЮЯабвгґдеёєжзиіїйклмнопрстуфхцчшщъыьюя', 'Serbian': u'АБВГДЂЕЖЗИЈКЛЉМНЊОПРСТЋУФХЦЧЏШабвгдђежзијклљмнњопрстћуфхцчџш', 'Bulgarian': u'АБВГДЕЖЗИЍЙКЛМНОПРСТУФХЦЧШЩЪЬЮЯабвгдежзиѝйклмнопрстуфхцчшщъьюя', # Ѝѝ -- for disambiguation of feminine possessive pronoun 'Montenegrin': u'АБВГДЂЕЖЗИЈКЛЉМНЊОПРСТЋУФХЦЧЏШ́абвгдђежзијклљмнњопрстћуфхцчџш', 'Macedonian': u'АБВГЃДЕЀЖЗЅИЍЈКЛЉМНЊОПРСТЌУФХЦЧЏШабвгѓдеѐжзѕиѝјклљмнњопрстќуфхцчџш', # ЀЍѐѝ -- for disambiguation # Other Indo-European/Romance Languages 'Moldovan': u'АБВГДЕЖӁЗИЙКЛМНОПРСТУФХЦЧШЫЬЭЮЯабвгдежӂзийклмнопрстуфхцчшыьэюя', # Iranian Languages 'Kurdish': u'АБВГДЕӘЖЗИЙКЛМНОÖПРСТУФХҺЧШЩЬЭԚԜабвгдеәжзийклмноöпрстуфхһчшщьэԛԝ', 'Ossetian': u'АӔБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯаӕбвгдеёжзийклмнопрстуфхцчшщъыьэюя', 'Tajik': u'АБВГҒДЕЁЖЗИӢЙКҚЛМНОПРСТУӮФХҲЦЧҶШЩЪЫЬЭЮЯабвгғдеёжзиӣйкқлмнопрстуӯфхҳцчҷшщъыьэюя', # ЦЩЫЬцщыь -- loanwords only # Uralic Languages 'Kildin Sami': u'АӒБВГДЕЁЖЗИЙҊЈКЛӅМӍНӉӇОПРҎСТУФХҺЦЧШЩЪЫЬҌЭӬЮЯаӓбвгдеёжзийҋјклӆмӎнӊӈопрҏстуфхһцчшщъыьҍэӭюяӢӣӮӯ', # cmb macron may be required 'Komi-Permyak': u'АБВГДЕЁЖЗИІЙКЛМНОӦПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдеёжзиійклмноӧпрстуфхцчшщъыьэюя', 'Meadow Mari': u'АБВГДЕЁЖЗИЙКЛМНҤОӦПРСТУӰФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнҥоӧпрстуӱфхцчшщъыьэюя', 'Hill Mari': u'АӒБВГДЕЁЖЗИЙКЛМНОӦПРСТУӰФХЦЧШЩЪЫӸЬЭЮЯаӓбвгдеёжзийклмноӧпрстуӱфхцчшщъыӹьэюя', 'Udmurt': u'АБВГДЕЁЖӜЗӞИӤЙКЛМНОӦПРСТУФХЦЧӴШЩЪЫЬЭЮЯабвгдеёжӝзӟиӥйклмноӧпрстуфхцчӵшщъыьэюя', 'Khanty': u'АӒӘӚБВГДЕЁЖЗИЙКӃЛМНӇОӦӨӪПРСТУӰФХЦЧШЩЪЫЬЭЮЯаӓәӛбвгдеёжзийкӄлмнӈоӧөӫпрстуӱфхцчшщъыьэюя', 'Nenets': u'АБВГДЕЁЖЗИЙКЛМНӇОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнӈопрстуфхцчшщъыьэюя', # Caucasian Languages 'Abkhaz': u'АБВГӶҔДЕҼҾЖЗӠИКҚҞЛМНОҨПҦРСТҬУФХҲЦҴЧҶЏШЫЬабвгӷҕдеҽҿжзӡикқҟлмноҩпҧрстҭуфхҳцҵчҷџшыь', 'Kabardian': u'АБВГДЕЖЗИӀЙКЛМНОПРСТУФХЦЧШЩЪЫЬЮЯабвгдежзиӏйклмнопрстуфхцчшщъыьюя', 'Chechen': u'АБВГДЕЁЖЗИӀЙКЛМНОПРСТУФХЦЧШЪЫЬЭЮЯабвгдеёжзиӏйклмнопрстуфхцчшъыьэюя', # Turkic Languages 'Azerbaijani': u'АӘБВГҒДЕЖЗИЙЈКҜЛМНОӨПРСТУҮФХҺЧҸШЫаәбвгғдежзийјкҝлмноөпрстуүфхһчҹшы', 'Turkmen': u'АӘБВГДЕЁЖҖЗИЙКЛМНҢОӨПРСТУҮФХЦЧШЩЪЫЬЭЮЯаәбвгдеёжҗзийклмнңоөпрстуүфхцчшщъыьэюя', 'Kazakh': u'АӘБВГҒДЕЁЖЗИІЙКҚЛМНҢОӨПРСТУҮҰФХҺЦЧШЩЪЫЬЭЮЯаәбвгғдеёжзиійкқлмнңоөпрстуүұфхһцчшщъыьэюя', 'Kyrgyz': u'АБВГДЕЁЖЗИЙКЛМНҢОӨПРСТУҮФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнңоөпрстуүфхцчшщъыьэюя', # ВФЦЩЪЬвфцщъь -- loanwords only 'Karachay': u'АБВГДЕЁЖЗИЙКЛМНОПРСТУЎФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнопрстуўфхцчшщъыьэюя', 'Bashkir': u'АӘБВГҒДЕЁЖЗҘИЙКҠЛМНҢОӨПРСҪТУҮФХҺЦЧШЩЪЫЬЭЮЯаәбвгғдеёжзҙийкҡлмнңоөпрсҫтуүфхһцчшщъыьэюя', 'Tatar': u'АӘБВГДЕЁЖҖЗИЙКЛМНҢОӨПРСТУҮФХҺЦЧШЩЪЫЬЭЮЯаәбвгдеёжҗзийклмнңоөпрстуүфхһцчшщъыьэюя', 'Altai': u'АБВГДЕЁЖЗИЙЈКЛМНҤОӦПРСТУӰФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийјклмнҥоӧпрстуӱфхцчшщъыьэюя', 'Khakass': u'АБВГҒДЕЁЖЗИІЙКЛМНҢОӦПРСТУӰФХЦЧӋШЩЪЫЬЭЮЯабвгғдеёжзиійклмнңоӧпрстуӱфхцчӌшщъыьэюя', 'Sakha': u'АБВГҔДЕЁЖЗИЙКЛМНҤОӨПРСТУҮФХҺЦЧШЩЪЫЬЭЮЯабвгҕдеёжзийклмнҥоөпрстуүфхһцчшщъыьэюя', 'Tuvin': u'АБВГДЕЁЖЗИЙКЛМНҢОӨПРСТУҮФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнңоөпрстуүфхцчшщъыьэюя', 'Uzbek': u'АБВГҒДЕЁЖЗИЙКҚЛМНОПРСТУЎФХҲЦЧШЩЪЬЭЮЯабвгғдеёжзийкқлмнопрстуўфхҳцчшщъьэюя', 'Uyghur': u'АӘБВГҒДЕЖҖЗИЙКҚЛМНҢОӨПРСТУҮФХҺЧШЮЯаәбвгғдежҗзийкқлмнңоөпрстуүфхһчшюя', 'Chuvash': u'АӐБВГДЕЁӖЖЗИЙКЛМНОПРСҪТУӲФХЦЧШЩЪЫЬЭЮЯаӑбвгдеёӗжзийклмнопрсҫтуӳфхцчшщъыьэюя', 'Evenki': u'АБВГДЕЁЖЗИЙКЛМНӇОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнӈопрстуфхцчшщъыьэюя', # Mongolian Languages 'Buryat': u'АБВГДЕЁЖЗИЙКЛМНОӨПРСТУҮФХҺЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмноөпрстуүфхһцчшщъыьэюя', # КФЩЪкфщъ -- loanwords only 'Khalkha': u'АБВГДЕЁЖЗИЙКЛМНОӨПРСТУҮФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмноөпрстуүфхцчшщъыьэюя', 'Kalmyk': u'АӘБВГДЕЁЖҖЗИЙКЛМНҢОӨПРСТУҮФХҺЦЧШЩЫЬЭЮЯаәбвгдеёжҗзийклмнңоөпрстуүфхһцчшщыьэюя', # Sino-Tibetan Languages 'Dungan': u'АӘБВГДЕЁЖҖЗИЙКЛМНҢОПРСТУЎҮФХЦЧШЩЪЫЬЭЮЯаәбвгдеёжҗзийклмнңопрстуўүфхцчшщъыьэюя', }
In http://typedrawers.com/discussion/comment/16531/#Comment_16531 Kent Lew provides the following language charsets for Cyrillic, which he has given me permission to include with attribution: