HXL-CPLP / forum

Fórum do Grupo de Usuários do Padrão HXL da Comunidade dos Países de Língua Portuguesa, "HXL-CPLP"
https://github.com/HXL-CPLP/forum/issues
The Unlicense
2 stars 0 forks source link

HXL-CPLP-Exemplar_iris #47

Open fititnt opened 3 years ago

fititnt commented 3 years ago

hxl +public  
meta +name HXL-CPLP-Exemplar_iris
meta +description +i_por HXL-CPLP-Exemplar_iris é uma conversão do famoso 'Conjunto de dados flor Iris' para o formato HXL.Da Wikipédia:'O conjunto de dados flor Iris ou conjunto de dados Iris de Fisher é um conjunto de dados multivariados introduzido pelo estatístico e biólogo britânico Ronald Fisher em seu artigo de 1936, O uso de múltiplas medições em problemas taxonômicos,como um exemplo de análise discriminante linear . [1] Às vezes, é chamado de conjunto de dados da íris de Anderson porque Edgar Anderson coletou os dados para quantificar a variação morfológica das flores da íris de três espécies relacionadas. Duas das três espécies foram coletadas na Península de Gaspé, "todas do mesmo campo, colhidas no mesmo dia e medidas ao mesmo tempo pela mesma pessoa com a mesma aparelho".'
meta +description +gtranslate +i_eng HXL-CPLP-Exemplar_iris is a conversion of the famous 'flower data set Iris' for HXL format.Wikipedia:'The flower data set Iris or set of Fisher's Iris data is a set of multivariate data introduced by statistical and British biologist Ronald Fisher in his 1936 paper, The use of multiple measurements in taxonomic problems, as an example of linear discriminant analysis . [1] It is sometimes called the set of Anderson Iris data because Edgar Anderson collected data to quantify morphological variation of iris flowers of three related species. Two of the three species were collected in the Gaspe Peninsula, "all from the same field, harvested and measured the same day at the same time by the same person with the same device." '
meta +discussion +public +url https://github.com/HXL-CPLP/forum/issues/47
x_api +hxlproxy https://proxy.hxlstandard.org/data?dest=data_view&url=https%3A%2F%2Fdocs.google.com%2Fspreadsheets%2Fd%2F1l7POf1WPfzgJb-ks4JM86akFSvaZOhAUWqafSJsm3Y4%2Fedit%23gid%3D634938833
x_api +source https://docs.google.com/spreadsheets/d/1l7POf1WPfzgJb-ks4JM86akFSvaZOhAUWqafSJsm3Y4/edit#gid=634938833
meta +source +url http://archive.ics.uci.edu/ml/datasets/Iris
meta +source +alt +url https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/iris.arff
meta +wikipedia +url +i_por https://pt.wikipedia.org/wiki/Conjunto_de_dados_flor_Iris
meta +wikipedia +url +i_eng https://en.wikipedia.org/wiki/Iris_flower_data_set
meta +wikidata +code Q4203254
fititnt commented 3 years ago

O arquivo bezdekIris.data e o iris.data tem diferença pequena em duas linhas. Estou em dúvida em qual deles "é o ideal" para se ter por padrão. O weka usa esse arquivo https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/iris.arff

Captura de tela de 2021-01-02 04-24-42


Edit: Diffs online


Edit 2: iris.arff usa o iris.data. São exatos, linha por linha. Então vamos usar o iris.data/iris.arff como base para o HXL-CPLP-Exemplar_iris.

fititnt commented 3 years ago

Segundo o conceito de explicitamente prefixar com código do idioma (vide #45) nesse momento vou deixar, pelo menos temporariamente, da seguinte forma

sepallength sepalwidth petallength petalwidth class
#item +eng_sepal +eng_length +number #item +eng_sepal +eng_width +number #item +eng_petal +eng_length +number #item +eng_petal +eng_width +number #item +class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3 1.4 0.2 Iris-setosa
4.7 3.2 1.3 0.2 Iris-setosa

Captura de tela de 2021-01-02 05-01-36

Uso de #item

Também em função de provas de conceito da #45 (que, resumidamente, poderíamos usar principalmente apenas as hashtags #item e #meta (em especial para o que não tem relação com dados geográficos), todas os dados tem hashtag #item.

Como nesse caso não teria qualquer informação não importante na própria tabela final, não tem #meta. Mas se fosse para adicionar comentários não pertinentes na própria tabela poderia ter meta

Importante: nesse momento, essa potencial conversão de uso #item + #meta ainda não foi testada por outros, e nem eu mesmo estou 100% certo. Porém já estou deixando documentado o motivo no momento por essas escolhas

Motivo de #item +class e não #item +eng_class

Pela convenção do #45, o atributo class deveria ser como #item +eng_sepal +eng_length +number. Porém, como Weka é um uso bem potencial de interoperabilidade com HXL, class é muito usado internamente nele. É quase como o +number (as vezes +num) do HXL.

Então ao menos temporariamente vamos deixar assim.