HXL-CPLP / forum

Fórum do Grupo de Usuários do Padrão HXL da Comunidade dos Países de Língua Portuguesa, "HXL-CPLP"
https://github.com/HXL-CPLP/forum/issues
The Unlicense
2 stars 0 forks source link

Uso de prefixo ISO 639-3 de código de idioma para explicitar língua de atributo HXL `+lll_` ( `+lat_exemplum`, `+epo_ekzemplo`, `+por_exemplo`, ...) #45

Open fititnt opened 3 years ago

fititnt commented 3 years ago

Ultimamente tenho pensado em testar vantagens de uma abordagem diferente do que o HXL-CPLP-Vocab_Latinum #42. Que, resumidamente

  • Evoluiu de #x_lex para #lat_lex
  • Ao usar "#lat_lex" assume-se que todos os atributos seriam em Latin
    • #lat_lex +poenam +maximam +mensis, num campo de valor "6", poderia facilmente usar até mesmo Google translator para dizer " The law the maximum penalty of 6 months" / " A lei a pena máxima de 6 meses"!!!
  • Veja https://github.com/HXL-CPLP/forum/issues/41#issuecomment-745148572

Nesta abordagem #lat_lex +poenam +maximam +mensis, teriamos #item +lat_lex +lat_poenam +lat_maximam +lat_mensis

1. Principais pontos dessa abordagem

Tecnicamente essa abordagem tem pelo menos os seguintes pontos

1.1. De onde vem o +ttt_ de +lat_ (ISO 639-3:2007, Codes for the representation of names of languages)

Da ISO 639-3 https://iso639-3.sil.org/

Por enquanto creio que damos mais atenção a latim. Esperanto pode tende a ser outra opção, em especial para termos que não existem em latim. Outro ponto é que latim, além de já ser usado em medicina e na áre a de legislação, tem uma vantagem do ponto de vista de processamento de linguagem natural: a ordem das palavras não importa. Então dá margem para certa criatividade.

O que fazer com palavras que não usam Alfabeto latino? Como Árabe e Mandarin?

Pensei a respeito. Neste caso existem dois problemas para implementação imediata dessa abortamento

1.1.1. Problemas

1.1.2. Potencial solução

Nota: os exemplos a seguir são rascunhos.

1.1.2.1. Arab

Não explorei no momento alternativas de romanização mais usadas para macro língua árabe.

1.1.2.2 Chinese (exemplo: 赤脚医生 -> zho_chijiao_yisheng)

Creio que um exemplo de termo muito específico da china, que, de certa forma, seria não traduzível (logo, exceto se usarmos algum Wikipedia Q code, poderia ser melhor usar mesmo no idioma original!) é Barefoot doctor

1.1.2.3 Hindi, Bengali, Marathi, Tamil, Gujarati, Urdu

Não explorei no momento alternativas de romanização mais usadas para línguas faladas na Índia.

1.1.2.4 Russian

fititnt commented 3 years ago

HXL-CPLP-Exemplar_multi-lingua: https://docs.google.com/spreadsheets/d/18XVtarb6KRd1114UtsyAFepiSaALUR5whuXA7yleal8/edit#gid=1584563477

fititnt commented 3 years ago

Talvez não seja a melhor abordagem, porém estou rascunhando HXL-CPLP-Exemplar_multi-lingua como um passo a passo ao estilo crash course de como tagear/usar HXL.

A parte das abas te API são especialmente voltadas para quando no futuro precisar enviar para alguém que estaria usando o proxy publico, saber o que não fazer. Em uma crise como foi o Rompimento de barragem em Brumadinho, creio que algo pré-escrito como isto poderia ajudar, pois definitivamente não haveria tempo para explicar para todos.

Captura de tela de 2020-12-25 15-08-28

Captura de tela de 2020-12-25 15-09-56

Captura de tela de 2020-12-25 15-10-31