Discussão geral de HXL e o ARFF (Attribute-Relation File Format)

Attribute-Relation File Format (ARFF)
- https://www.cs.waikato.ac.nz/ml/weka/arff.html
Discussão geral de HXL no uso de Data Mining / Machine Learning #46

O formato ARFF (que, resumidamente, seria um CSV com mais metadados) não sei se é numa coincidência ou se os projetistas do linguagem HXL sabiam, mas HXL e ARFF são semelhantes. Esse tópico aqui é sobre fazermos testes simples para exportar ARFF a partir de planilhas colaborativas do dia a dia em HXL

No tópico #46 tem discussão sobre HXL e data Mining (inclusive tem livro que explica como fazer usando DIRETAMENTE de Excel!) porém creio que uma outra alternativa para ser testada (em especial quando fazer direto do Excel não "for suficiente") seria pelo menos documentar para as pessoas como exportar para outras ferramentas. A maioria delas suporta CSVs (e creio que o ideal seria pelo menos garantir que um CSV de HXL não gente problemas). Mas o ARFF me parece interessante a ponto de possivelmente até mesmo algumas nomenclaturas que fossemos usar implicitamente se encaixariam perfeito caso usadas em outros softwares.

Um dos motivos de rascunhar o _EticaAI-Data_Sexum #50_ foi justamente eventualmente, aqui como um exemplo de uso, termos alguma forma de estruturar algoritmos que em vez de minerar dados do pessoas reais (que podem ter vieses indesejados ou excessivo erros de anotação) que ao menos possam ser baseados em conceitos com algum nível de curadoria. Outro ponto é que antes mesmo das pessoas poderem tentar automatizar formas de descobri preconceitos, a não ser que elas trabalhem de forma super focada (tipo um grupo vunerável + uma localização geográfica) e já sejam super especialistas, o fato de não ter uma "base mais genérica" para "montar bloquinhos" torna bem mais complicado.

Talvez seja melhor daqui alguns meses escrever melhor o que eu quero dizer com isso, mas não é por acaso. Boa parte do que estou prototipando é bem alinhado com conceitos que foram discutidos na primeira edição do Ethically Aligned Design (https://ethicsinaction.ieee.org/) (no sentido da necessidade de algorítimos poderem ser auditados) como também que, do ponto de vista teórico, é possível usar ferrametnas de data mining para fazer tomadas de decisões de forma muito mais simples de revisão humana do que o que existe hoje.

Talvez o conceito não demore só alguns meses. Mas mesmo que seja funcional, provavelmente quem teria mais crédito seja quem reusaria no futuro. Eu possivelmente vou intencionalmente não fazer muita questão de ter destaque.

HXL-CPLP / forum

Discussão geral de HXL e o ARFF (Attribute-Relation File Format) #51