HXL-CPLP / forum

Fórum do Grupo de Usuários do Padrão HXL da Comunidade dos Países de Língua Portuguesa, "HXL-CPLP"
https://github.com/HXL-CPLP/forum/issues
The Unlicense
2 stars 0 forks source link

EticaAI-Data_Sexum #50

Open fititnt opened 3 years ago

fititnt commented 3 years ago

TODO: adicionar mais informações sobre

fititnt commented 3 years ago

Motivação

Inspiração na forma como dados geográficos são organizados

Motivação: assim como ocorreria com questões que, por citarem locais (cidades, bairros, estados, regiões de conflito, etc) é super importante ter alguma forma de código. A lógica é a seguinte: se pessoas que não são da região geográfica precisam ajudar quem é da região (ou, mesmo que essas pessoas aprendam os códigos locais, outras pessoas novas de outros países tenham que ajudar elas, mas não tenham aprendido o vocabulário/termos locais): como as pessoas vão saber que nomes usar até mesmo para saber que falam da mesma região?

No _HXL-CPLP-FODcountries-territories: informações-chave sobre países e territórios #34 (e, no que ainda é rascunho em andamento, no _HXL-CPLP-FODBRA-place-codes #40) tem exemplo do que são tabelas e abordagens sobre que códigos são usados para troca de informações. Para quem no futuro for ler isto e quiser um resumo: até mesmo códigos (e em especial limites geográficos) não são consenso global. Outro ponto é que quando existe urgência não ter vocabulários/taxonomias já prontas isso implica em prejuízo não só financeiro, mas risco de vida

Ideia inicial de na EticaAI-Data_Sexum

Uma das ideias de EticaAI-Data_Sexum (para escolha do dos nomes, veja #42) é, mesmo que seja apenas para uso mais interno (como forma de citar sexo/genero/etc quando relacionado a pessoas, e isso eu sei que é necessário para quem lida com área de saúde ou discurso de ódio), a gente já pode ter alguma referência de como usar planilhas HXL quando envolve algo relacionado a sexo e gênero.

Nota: tipicamente o "identificador único" seria apenas EticaAI-Data_Sexum, porém ao implicitamente ter duas planilhas (e, mesmo que fique mais em destaque a EticaAI-Data_Sexum_binarium, se alguém pesquisar, encontraria a EticaAI-Data_Sexum_non-binarium), é que existem necessidades diferentes por públicos diferentes. Eu, Emerson, pessoalmente, se fosse para criar iria direto para focar na EticaAI-Data_Sexum_non-binarium e nem criar a outra, porém existem pessoas e organizações que precisariam de uma alternativa que, mesmo que do ponto de vista político não seja de vanguarda, pelo menos permite para que pessoas não morram, mesmo que isso signifique além de feminino/masculino ter "outro" (e, por questões técnicas, sempre é necessário ter desconhecido). Nada impede que pessoal de saúde, organizações de defesa de grupos gênero não binário e etc ou grupos locais usem outros códigos.

EticaAI-Data_Sexum_binarium

A EticaAI-Data_Sexum_binarium (mesmo que eventualmente troque de nome) tende a ser a planilha mais alinhada com ISOs e convenções internacionais. Atualmente a versão V0.1 (que está no print) foi baseada nas informações publicas de https://en.wikipedia.org/wiki/ISO/IEC_5218. O conceito dessas 4 classes:

Código ISO/IEC 5218 Etiqueta ISO/IEC 5218
#item +v_iso5218 +code #item +v_iso5218 +name
0 Not known
1 Male
2 Female
9 Not applicable

provavelmente deve ser a mais fácil de conseguir pelo menos uma opção de fonte de dados do EticaAI-Data_Sexum que possa ser usado sem necessidade de revisão externa. Ou seja, existe questão prática de não precisar reinventar a roda: ela tende a ser mais compilar dados de fontes que já foram revisadas por anos do que não apenas compilar dados, mas praticamente emitir opinião pessoal

EticaAI-Data_Sexum_non-binarium

A EticaAI-Data_Sexum_non-binarium (mesmo que eventualmente troque de nome) é o local onde podemos colocar muito mais informações. Não sei em que momento vamos ir ativamente atrás de feedback de comunidade ou de especialistas no assunto, porém pelo menos as edições que forem feitas por mim não vão ser 100% checadas a fundo: na falta de especialistas a tendência é ter preocupação em explicar como pessoas podem usar HXL para corrigir ou propor melhorias sem que elas tenham que aprender a fundo HXL ou como machine learning use esses conceitos. Não que eu explicitamente vou errar de propósito, mas mesmo que informação fique parcialmente errada, tem-se a lei de Cunningham:

A lei de Cunningham afirma que "a melhor maneira de obter a resposta certa na Internet não é fazer uma pergunta, é postar a resposta errada."

Lembrando o seguinte: a maioria dos conjuntos de dados que dedicado tempo e carinho é dedicada ao domínio publico, logo mesmo em caso extremo, pessoas ou organizações que tenham divergências irreconciliáveis podem re-licenciar e por seu nome e não temos o que fazer contra. Eu, pessoalmente, se for para fazer um bom trabalho (em especial se a licença não for restritiva) até explico como usar parte técnica, pois no fim das contas o ideal era mesmo pessoal da área!

Resumo atual

Esse é o printscreen e informação inicial da v0.1


Captura de tela de 2021-01-03 05-31-39

hxl +public,,,,,
meta +name,EticaAI-Data_Sexum_binarium,,,,
status,eng_draft,,,,
meta +version,v0.1,,,,
meta +description +i_por,EticaAI-Data_Sexum_binarium (...),,,,
meta +description +gtranslate +i_eng,EticaAI-Data_Sexum_binarium (...),,,,
x_api,https://proxy.hxlstandard.org/data?dest=data_view&url=https%3A%2F%2Fdocs.google.com%2Fspreadsheets%2Fd%2F1AvYEV8a-X9gZrxrPH0wPgoGHO8ENxWJuVA3z1RpcC5k%2Fedit%23gid%3D214068544,,,,
meta+iso51218+wikipedia+url,https://en.wikipedia.org/wiki/ISO/IEC_5218,,,,
meta+seealso1+url,https://core.ac.uk/download/pdf/211567334.pdf,,,,
,,,,,
,,,,,
,,,,,
,,,,,
,,,,,
,,,,,
,,,,,
,,,,,
Código ISO/IEC 5218,Etiqueta ISO/IEC 5218,Termo usado,Valor padronizado,Comentários,Agrupamento do Item
#item +v_iso5218 +code,#item +v_iso5218 +name,#item +vocab +list +i_por,#item +vocab +list +i_eng,#meta +eng_comments,#item+weka_class
0,Not known,desconhecido,unknown|not known,,lat_incognitum
1,Male,feminino|mulher|fem,female|woman,,lat_feminam
2,Female,masculino|homem|masc,male,,lat_masculum
9,Not applicable,,not applicable,,lat_non_binarium
fititnt commented 3 years ago

Ok. em uma olhada rápida focada exclusivamente em taxonomia / vocabulário (mais no sentido de linked data), algumas suposições que eu já tinha meio que parecem ser confirmadas.

2016_Oemig+Blobel+Geibel_How-to-Work-with-Vocabulary-Correctly.pdf

Esse artigo em 2016 já criticava o problema de padronização de códigos (não só dentro da Alemanha, mas fora) de usar além de Male/Female). Eu na verdade adorei que até mesmo já tem comparação de várias organizações (print em anexo) e alguns pontos que talvez valha a pena ir atrás (em especial para questões mais focadas no EticaAI-Data_Sexum_binarium

ISO/IEC 5218 extended

Esse artigo cita algo chamado ISO/IEC 5218 extended que, tem transgender male: 3 e transgender female: 4, porém não estou encontrando referencias na internet. É algo para se ir atrás!

Mas, como as demais ISOs, possivelmente é preciso pagar licença (e não sao baratas) para ter acesso aos textos originais, mas creio que no nosso caso isso vale a pena. Em especial na EticaAI-Data_Sexum_non-binarium esses dois pontos adicionais ajudariam.

2019_Sribar_Gender-taxonomy-revisited.docx

Esse docx (que estava no researchgate, mas parece que foi publicado antes como nome It’s not adequate, but otherwise they would not understand it) tem outros pontos super pertinentes para nosso caso. Por isso se no futuro alguém for assumir esse tópico, pode valer a pena ler, mesmo que use Google Translate no documento!

Mas, resumindo a autora:

Novamente, como eu disse no meu ponto anterior (e que quem for reclamar no futuro, mesmo que não queira colaborar, mas em especial quem queira se tornar ativo para lidar com outros): considere o contexto de quem for fazer uso do vocabulário do seu grupo de interesse em vez de focar em 'quem vai usar errado' ou 'não esta perfeito porque até mesmo fazer taxonomia seria inviável'. Já existem poucas pessoas na questão de viéses de máquina (ou de humanos) que também entendam de questões de gênero (e não, eu e outros homens 'brancos heteros' não somos representantes para manter algo como isso depois do início) para você que (seja meses ou anos depois que esse tópico aqui ganha algum destaque) chegar simplesmente criticar de forma rasa.


Outros links

Anexos

imagem de 2016_Oemig+Blobel+Geibel_How-to-Work-with-Vocabulary-Correctly.pdf

Captura de tela de 2021-01-03 08-25-19

fititnt commented 3 years ago

Car***o, achei a p***a da ISO/IEC 5218:2004!!! Imaginem a raiva vendo que para ter acesso completo seria mais de 500 Reais do Brasil (ou então ver toda uma burocracia para tentar por alguma organização grande acesso a isso).

ISO/IEC 5218 extended

Notem que com exceção do do 2016_Oemig+Blobel+Geibel_How-to-Work-with-Vocabulary-Correctly.pdf (e também nessa tabela do HL7 e nesse link https://wiki.hl7.de/index.php?title=Geschlecht), simplesmente não encontro local para re-confirmar esse ISO/IEC 5218 extended sobre código para transgrender male e transgender female, e isso seria super importante já deixar pronto.

Alias, nem mesmo na ISO/IEC 5218:2004 (que parece que o link público deve ser o mesmo da versão paga) tem referencia a isso. Todas as referencias na internet para 'ISO / IEC 5218 extended' tendem a retornar creio que os mesmos grupos de trabalho (e todos da Alemanha). Talvez o que estão chamando de "ISO/IEC 5218 extended" (visto que não tem na ISO atual) seria algo que estaria planejado para próxima versão da ISO?

Sinceramente, considerando que essa ISO parece ter sido baseada em uma de 1977 (e até hoje tem apenas 4 códigos) , pelo menos ter opção de transgrender já é um super avanço. Pelo texto em inglês dessa ISO, eles deixam claro que ela não tem pretensão de conter descrição mais focada na questão de medicina (que parece ser um dos maiores focos das organizações que tem mais códigos para representar gênero)

Sobre a representação textual

Diferente do que tem na Wikipedia (mesmo em inglês) os textos, mesmo em inglês, são em caixa baixa. Ela especifica que existe diferenças entre inglês de mais de um pais (porém ao citar USA e UK, ambos usam mesmo texto):

Código ISO/IEC 5218 Etiqueta ISO/IEC 5218
#item +v_iso5218 +code #item +v_iso5218 +name +i_eng
0 not known
1 male
2 female
9 not applicable

No caso de português, apenas é citado Brasil, porém seria isso aqui:

Código ISO/IEC 5218 Etiqueta ISO/IEC 5218
#item +v_iso5218 +code #item +v_iso5218 +name +i_por
0 desconhecido
1 masculino
2 feminino
9 nenhuma resposta

Captura de tela de 2021-01-03 11-05-20

Captura de tela de 2021-01-03 11-12-00

Wikipedia PT para ISO/IEC 5218 com tradução literal

E percebam que a descrição na Wikipedia PT para ISO/IEC 5218 (https://pt.wikipedia.org/wiki/ISO/IEC_5218) é uma tradução direta do inglês (not known = não sabe; not applicable = não especificado) porém a ISO em si é diferente. Pensem ter apenas 4 termos para usar, e ainda 50% está meio errado. (ok que tecnicamente em português são meio equivalentes, mas ainda assim não é mesma coisa).

Porém eu consigo imaginar porque a ISO na Wikipedia PT está errada: muito provavelmente pouca gente saberia onde encontrar a ISO! Eu não duvido que outros idiomas da Wikipedia tenham mesmas inconsistências!

De qualquer forma, vou realmente fazer questão de nas próximas semanas revisar bem pelo menos a tabela EticaAI-Data_Sexum_binarium, pois a tendência é acabar sendo usada como referencias até mesmo fora da CPLP.

fititnt commented 3 years ago
Data Versão Descrição curta Descrição longa Link 1 Short description (Google Translate, EN) Long description (Google Translate, EN)
#date #meta +lat_versiones #meta +lat_descriptionem +lat_brevis +i_por #meta +lat_descriptionem +i_por #meta +etc1 +url #meta +lat_descriptionem +lat_brevis +eng_machine_translation +i_eng #meta +lat_descriptionem +eng_machine_translation +i_eng
2020-01-04 v0.3.0 v0.3.0: 'EticaAI-Data_Sexum_ISO-IEC-5218-extended' criado. Rascunho da EticaAI-Data_Sexum_ISO-IEC-5218-extended foi criado.Ainda não contém descrição das principais linguagens.Inspirado em 2016_Oemig+Blobel+Geibel_How-to-Work-with-Vocabulary-Correctlye em 'HL7 Gender Coding with International Data Exchange Standards' https://www.iso.org/standard/36266.html v0.3.0: 'EticaAI-Data_Sexum_ISO-IEC-5218-extended' created. Draft EticaAI-Data_Sexum_ISO-IEC-5218-extended was created.Yet it contains a description of languages.Inspired by Blobel 2016_Oemig + + Geibel_How-to-work-with-Correctly-Vocabularyand 'Gender HL7 Coding with International Data Exchange Standards'

Captura de tela de 2021-01-04 03-59-20

hxl +public,,,,,,,
meta +name,EticaAI-Data_Sexum_ISO-IEC-5218-extended,,,,,,
x_api,https://proxy.hxlstandard.org/data?dest=data_view&url=https%3A%2F%2Fdocs.google.com%2Fspreadsheets%2Fd%2F1AvYEV8a-X9gZrxrPH0wPgoGHO8ENxWJuVA3z1RpcC5k%2Fedit%23gid%3D1871162567,,,,,,
status,eng_public_draft,,,,,,
meta +lat_descriptionem +i_por,"EticaAI-Data_Sexum_ISO-IEC-5218-extended é uma planilha planejada para uso
humanitário, e é feita em HXL. Contém códigos e descrições em multiplos idiomas previamente
organizados para uso em campo. É baseado na 'ISO/IEC 5218:2004
Information technology — Codes for the representation of human sexes'.

A principal diferença que você deve estar ciente: os códigos
'3: transgender male' e '4: transgender female' que NÃO fazem parte da
especificação 'ISO/IEC 5218:2004' (e não está claro se seriam implementados
em uma futura versão). Todas as informações de EticaAI-Data_Sexum que façam
referência a 'ISO/IEC 5218 extended' são meramente convenções usadas para
interoperabilidade entre sistemas e, ainda que especial atenção tenha sido
dada aos códigos 0, 1, 2, 9 (inclusive para uso dos termos em acordo com a
ISO e recomendação da ONU, visto que Wikipédias em várias línguas tem erros)
as etiquetas (nomes) e suas traduções para outros
idiomas de 3 e 4 não tem revisão com mesmo nível de padrão de ISO/IEC.

Note que a licença de uso de ''ISO/IEC 5218:2004' NÃO é de
'Open Data Commons Public Domain Dedication and License (PDDL)'
como material organizado por HXL-CPLP e EticaAI.",,,,,,
meta +lat_descriptionem +i_eng +eng_machine_translation,"EticaAI-Data_Sexum_ISO-IEC-5218-extended is a spreadsheet designed for use
humanitarian, and is made of HXL. It contains codes and descriptions in multiple languages ​​previously
organized for field use. It is based on the 'ISO / IEC 5218: 2004
Information technology - Codes for the representation of human sexes'.

The main difference that you should be aware: the codes
'3: transgender male' and '4: transgender female' that are NOT part of
specification 'ISO / IEC 5218: 2004' (and it is unclear if they would be implemented
in a future release). All information EticaAI-Data_Sexum to do
reference to ""ISO / IEC 5218 extended 'are merely used to conventions
interoperability between systems and, although special attention has been
given the codes 0, 1, 2, 9 (including use of the terms in accordance with the
ISO and UN recommendation, as Wikipedias in different languages ​​has errors)
labels (names) and their translations into other
languages ​​of 3:04 has no review with the same level of standard ISO / IEC.

Note that the license to use the '' ISO / IEC 5218: 2004 'is NOT
'Open Data Commons Public Domain Dedication and License (PDDL)'
as material organized by HXL-CPLP and EticaAI.",,,,,,
meta+iso51218+wikipedia+url,https://en.wikipedia.org/wiki/ISO/IEC_5218,,,,,,
meta +eng_source +url,https://standards.iso.org/ittf/PubliclyAvailableStandards/c036266_ISO_IEC_5218_2004(E_F).zip,,,,,,
meta +license +list,For humanitarian usage | International Organization for Standardization Costumer License Agreement,,,,,,
,,,,,,,
,,,,,,,
,,,,,,,
,,,,,,,
meta +todo1,"I'm not 100% sure if lat_trans_masculum & lat_trans_feminam are good latin key terms. (rocha, 2021-01-04 03:46 BRT)",,,,,,
meta +todo2,"We shoud all more languages from the ISO/IEC 5218 (at least the 6 from UN); But seems that the ISO don't mention even Arab (MSA) (rocha, 2020-01-04 03:47 BRT)",,,,,,
,,,,,,,
"Código ISO/IEC 5218 ""extended""",Código ISO/IEC 5218,"Etiqueta ISO/IEC 5218 ""extended"" (EN)","Etiqueta ISO/IEC 5218 (EN)
""ISO/UN English""","Etiqueta ISO/IEC 5218 (FRA)
""ISO/UN French""","Etiqueta ISO/IEC 5218 (SPA)
""ISO/UN Spanish""","Etiqueta ISO/IEC 5218 (PT) ""076:por""",Weka Class
#meta +v_iso5218_extended +code,#meta +v_iso5218 +code,#meta +v_iso5218_extended +name,#meta +v_iso5218 +name +i_eng,#meta +v_iso5218 +name +i_fra,#meta +v_iso5218 +name +i_spa,#meta +v_iso5218 +name +i_por,#item+weka_class
0,0,not known,not known,inconnu,desconocido,desconhecido,lat_incognitum
1,1,male,male,masculin,masculino,masculino,lat_masculum
2,2,female,female,féminin,femenino,feminino,lat_feminam
3,,transgender male,,,,,lat_trans_masculum
4,,transgender female,,,,,lat_trans_feminam
9,9,not applicable,not applicable,sans objet,no aplica,nenhuma resposta,lat_non_binarium
fititnt commented 3 years ago

Creio que a EticaAI-Data_Sexum_ISO-IEC-5218-extended está usavel (EticaAI-Data_Sexum v0.3.2). Agora creio que podemos ir para EticaAI-Data_Sexum_Non-binarium. Porém a ISO-IEC-5218-extended, mesmo sendo um trabalho intermediario, pode ser reusado por outros

Blissymbolics

Extrai os códigos do Blissymbolics do PDF. Eles estão na planilha. Também vou deixar em anexo aqui.

Problemas com encoding

Macrolanguage ZHO está com encoding errado

Falhei miseravelmente em fazer copia-e-cola do PDF para o Google Spreadsheet. E inspecionar em ferramentas online, o encoding parece que não é o que deveria. Tentei também com pelo menos para Japonês e tive problemas.

Captura de tela de 2021-01-04 06-13-57

Não tem descrição em texto para Árabe.

A coluna de Árabe está vazia (mas ainda assim vai ficar na nossa planilha) porque o PDF da ISO da ISO não tem descrição nem mesmo para 'male/female'.

E vale lembrar que "árabe" é macrolanguage, então além de questões culturais (que, imagino, é o que pessoas ocidentais tendam pensar apenas nisso), talvez até mesmo palavra para 'male' ou para 'female' não sejam de forma consistente. Na ISO, além de 'ISO/UN English', tem pelo menos mais umas 4 referencias que explicitam a região reográfica (que, pelo que vi, seguem o padrão 'ISO/UN English', então pensem que isso pode dar ideia da complexidade de definir termos a nível internacional.

Resultado atual

Captura de tela de 2021-01-04 06-07-24