Open fititnt opened 3 years ago
HXL-CPLP-Exemplar_multi-lingua: https://docs.google.com/spreadsheets/d/18XVtarb6KRd1114UtsyAFepiSaALUR5whuXA7yleal8/edit#gid=1584563477
Talvez não seja a melhor abordagem, porém estou rascunhando HXL-CPLP-Exemplar_multi-lingua
como um passo a passo ao estilo crash course de como tagear/usar HXL.
A parte das abas te API são especialmente voltadas para quando no futuro precisar enviar para alguém que estaria usando o proxy publico, saber o que não fazer. Em uma crise como foi o Rompimento de barragem em Brumadinho, creio que algo pré-escrito como isto poderia ajudar, pois definitivamente não haveria tempo para explicar para todos.
Ultimamente tenho pensado em testar vantagens de uma abordagem diferente do que o HXL-CPLP-Vocab_Latinum #42. Que, resumidamente
Nesta abordagem
#lat_lex +poenam +maximam +mensis
, teriamos#item +lat_lex +lat_poenam +lat_maximam +lat_mensis
1. Principais pontos dessa abordagem
Tecnicamente essa abordagem tem pelo menos os seguintes pontos
#item
e#meta
(que, aliás,ambas são latim)+num
(usado para dar dica a implementações que a coluna contém números) tem significado diferente em latim. Isso poderia "confundir" parseadores.#lat_lex
) que assumiriam por padrão que os atributos seriam em latim (para "evitar redundância de#lat_lex +lat_termo1 +lat_termk2...
com#lat_lex +termo1 +termk2...
dependeria de latim ter termos para todas as áreas, mas no mundo real, por exemplo interseção entre leis e computação, alguns termos podem ser em inglês)1.1. De onde vem o
+ttt_
de+lat_
(ISO 639-3:2007, Codes for the representation of names of languages)Da ISO 639-3 https://iso639-3.sil.org/
Por enquanto creio que damos mais atenção a latim. Esperanto pode tende a ser outra opção, em especial para termos que não existem em latim. Outro ponto é que latim, além de já ser usado em medicina e na áre a de legislação, tem uma vantagem do ponto de vista de processamento de linguagem natural: a ordem das palavras não importa. Então dá margem para certa criatividade.
O que fazer com palavras que não usam Alfabeto latino? Como Árabe e Mandarin?
Pensei a respeito. Neste caso existem dois problemas para implementação imediata dessa abortamento
1.1.1. Problemas
abcdefghijklmnopqrstuvwxyz123456789_
Diferente de código para línguas, como o ISO 639-3, não existem códigos ISOs para o tipo de caracteres que uma língua usaabcdefghijklmnopqrstuvwxyz123456789_
considerem como sinalizar esse uso1.1.2. Potencial solução
1.1.2.1. Arab
Não explorei no momento alternativas de romanização mais usadas para macro língua árabe.
1.1.2.2 Chinese (exemplo:
赤脚医生
->zho_chijiao_yisheng
)Creio que um exemplo de termo muito específico da china, que, de certa forma, seria não traduzível (logo, exceto se usarmos algum Wikipedia Q code, poderia ser melhor usar mesmo no idioma original!) é Barefoot doctor
赤脚医生
chìjiǎo yīshēng
chìjiǎo yīshēng
=chijiao yisheng
zho_chijiao_yisheng
(Nota: não use chi!, Isto não é ISO 639-3!)1.1.2.3 Hindi, Bengali, Marathi, Tamil, Gujarati, Urdu
Não explorei no momento alternativas de romanização mais usadas para línguas faladas na Índia.
1.1.2.4 Russian