É de extrema necessidade que possamos separar com um maior critério as medidas de complexidade que o framework possa trabalhar, até o momento foram utilizadas diversas métricas, porém sem grandes fundamentos sobre o por quê de tal uso e também dos critérios implementação, visto que, diversas métricas apresentam um vetor de valores e esse vetor não é estudado no momento do cálculo.
C2 é uma métrica interessante, pois só retorna apenas um valor que corresponde a razão de balanceamento de um problema multi-classe.
(0 - 1)
0 - corresponde a um dataset balanceado
.
.
.
1 - corresponde a um dataset desbalanceado
Custo Assimptótico: O(n) operações {linear}. Em testes foi verificado que é uma das métricas mais rápidas a serem calculadas.
Usado por (França, T. R. et al, 2020)[^1]
L2
L2 se refere a métrica de linearidade e calcula a razão de erro de um classificador linear (para a ECoL se trata do SVM).
(0 - 1)
0 - corresponde a um dataset que pode ser facilmente classificado por um classificador linear
.
.
.
1 - corresponde a um dataset que possuí muitos erros e uma grande complexidade acerca dos dados serem linearmente separados.
Custo assimptótico: O(n²).
Usado por (França, T. R. et al, 2020)[^1]
N1
N1 é uma métrica bastante utilizada na geração de dataset sintéticos, utilizada em larga escala para estimar o tamanho e complexidade do limite de decisão entre duas classes - pontos críticos de classes distintas que estão muito próximos um do outro.
(0 - 1)
0
.
.
.
1 - corresponde a divisões mais complexas para separar as classes umas das outras e/ou que há uma quantidade muito grande de overlapping entre as classes.
Em si, N1 é essencial quando há a necessidade de se observar exemplos com ruídos/noise entre seus vizinhos.
Custo assimptótico: O(m * n²).
Usado por (França, T. R. et al, 2020)[^1], (Macià N., et al, 2010)[^2] e (V. V. de Melo, A. C. Lorena, 2018)[^3].
N2
N2 se trata da razão que é a soma das distâncias entre exemplos de mesma classe e da soma das distâncias dos exemplos de classes diferentes. Dessa forma estamos calculando a distância da vizinhança em relação aos valores de todos os atributos.
N2 é parecido com as medidas de Fischer (F1 e F1v), pois avalia as variabilidades intra e inter classes; todavia difere justamente porquê F1 e F1v é limitado aos seus respectivos atributos, enquanto N2 trata todos os atributos ao mesmo tempo.
(0 - 1)
0 - corresponde a um dataset de problemática simples, do qual a distância entre exemplos de diferentes classes é maior do que os exemplos de classes internas.
.
.
.
1 - corresponde a um dataset do qual a distância entre exemplos de diferentes classes é menor (instâncias de classes diferentes estão próximas) do que os exemplos de classes internas (instâncias de mesma classe estão mais distante).
Custo assintótico: O(m * n²).
Usado por (França, T. R. et al, 2020)[^1], Macià em trabalhos anteriores à 2010.
T1
T1 constrói hiperesferas centradas a cada exemplo. O Raio de cada hiperesfera é aumentado progressivamente até que encontre um exemplo de uma outra classe. Esse processo pode ser visualizado nessa imagem:
T1 representa a razão entre as esferas e o número total de exemplos. T1 é interessante pois visualiza a quantidade de agrupamentos presente em um dataset.
Custo Assintóptico: O(m * n²).
Usado por (Macià N., et al, 2010)[^2].
F2
F2 é uma métrica que calcula a o volume de overlapping, através das distribuições de atributos, através de um range de mínimo e máximos para cada classe, conforme pode ser observado na figura:
(0 - 1)
0 - corresponde a um dataset com volume de overlapping baixo e consequentemente com baixa complexidade.
.
.
.
1 - corresponde a um dataset com um alto volume de overlapping entre as classes, consequentemente com alta complexidade.
Custo assimptótico: O(m n nc).
Usado por (Macià N., et al, 2010)[^2].
[^1]: França, T. R., Miranda, P. B. C., Prudêncio, R. B. C., Lorena, A. C., & Nascimento, A. C. A. (2020). A Many-Objective optimization Approach for Complexity-based Data set Generation [Conference paper]. 2020 IEEE Congress on Evolutionary Computation (CEC), 1–8. https://doi.org/10.1109/CEC48606.2020.9185543
[^2]: Núria Macià, Albert Orriols-Puig, and Ester Bernadó-Mansilla. 2010. In search of targeted-complexity problems. In Proceedings of the 12th annual conference on Genetic and evolutionary computation (GECCO '10). Association for Computing Machinery, New York, NY, USA, 1055–1062. DOI:https://doi.org/10.1145/1830483.1830674
[^3]: V. V. de Melo and A. C. Lorena, "Using Complexity Measures to Evolve Synthetic Classification Datasets," 2018 International Joint Conference on Neural Networks (IJCNN), 2018, pp. 1-8, doi: 10.1109/IJCNN.2018.8489645.
Descrição
É de extrema necessidade que possamos separar com um maior critério as medidas de complexidade que o framework possa trabalhar, até o momento foram utilizadas diversas métricas, porém sem grandes fundamentos sobre o por quê de tal uso e também dos critérios implementação, visto que, diversas métricas apresentam um vetor de valores e esse vetor não é estudado no momento do cálculo.
Fixes #3
Objetivos
Das Complexidades
C2
C2 é uma métrica interessante, pois só retorna apenas um valor que corresponde a razão de balanceamento de um problema multi-classe.
(0 - 1) 0 - corresponde a um dataset balanceado . . . 1 - corresponde a um dataset desbalanceado
Custo Assimptótico: O(n) operações {linear}. Em testes foi verificado que é uma das métricas mais rápidas a serem calculadas.
Usado por (França, T. R. et al, 2020)[^1]
L2
L2 se refere a métrica de linearidade e calcula a razão de erro de um classificador linear (para a
ECoL
se trata do SVM).(0 - 1) 0 - corresponde a um dataset que pode ser facilmente classificado por um classificador linear . . . 1 - corresponde a um dataset que possuí muitos erros e uma grande complexidade acerca dos dados serem linearmente separados.
Custo assimptótico: O(n²).
Usado por (França, T. R. et al, 2020)[^1]
N1
N1 é uma métrica bastante utilizada na geração de dataset sintéticos, utilizada em larga escala para estimar o tamanho e complexidade do limite de decisão entre duas classes - pontos críticos de classes distintas que estão muito próximos um do outro.
(0 - 1) 0 . . . 1 - corresponde a divisões mais complexas para separar as classes umas das outras e/ou que há uma quantidade muito grande de overlapping entre as classes.
Em si, N1 é essencial quando há a necessidade de se observar exemplos com ruídos/noise entre seus vizinhos.
Custo assimptótico: O(m * n²).
Usado por (França, T. R. et al, 2020)[^1], (Macià N., et al, 2010)[^2] e (V. V. de Melo, A. C. Lorena, 2018)[^3].
N2
N2 se trata da razão que é a soma das distâncias entre exemplos de mesma classe e da soma das distâncias dos exemplos de classes diferentes. Dessa forma estamos calculando a distância da vizinhança em relação aos valores de todos os atributos.
N2 é parecido com as medidas de Fischer (F1 e F1v), pois avalia as variabilidades intra e inter classes; todavia difere justamente porquê F1 e F1v é limitado aos seus respectivos atributos, enquanto N2 trata todos os atributos ao mesmo tempo.
(0 - 1) 0 - corresponde a um dataset de problemática simples, do qual a distância entre exemplos de diferentes classes é maior do que os exemplos de classes internas. . . . 1 - corresponde a um dataset do qual a distância entre exemplos de diferentes classes é menor (instâncias de classes diferentes estão próximas) do que os exemplos de classes internas (instâncias de mesma classe estão mais distante).
Custo assintótico: O(m * n²).
Usado por (França, T. R. et al, 2020)[^1], Macià em trabalhos anteriores à 2010.
T1
T1 constrói hiperesferas centradas a cada exemplo. O Raio de cada hiperesfera é aumentado progressivamente até que encontre um exemplo de uma outra classe. Esse processo pode ser visualizado nessa imagem:
T1 representa a razão entre as esferas e o número total de exemplos. T1 é interessante pois visualiza a quantidade de agrupamentos presente em um dataset.
Custo Assintóptico: O(m * n²).
Usado por (Macià N., et al, 2010)[^2].
F2
F2 é uma métrica que calcula a o volume de overlapping, através das distribuições de atributos, através de um range de mínimo e máximos para cada classe, conforme pode ser observado na figura:
(0 - 1) 0 - corresponde a um dataset com volume de overlapping baixo e consequentemente com baixa complexidade. . . . 1 - corresponde a um dataset com um alto volume de overlapping entre as classes, consequentemente com alta complexidade.
Custo assimptótico: O(m n nc).
Usado por (Macià N., et al, 2010)[^2].
[^1]: França, T. R., Miranda, P. B. C., Prudêncio, R. B. C., Lorena, A. C., & Nascimento, A. C. A. (2020). A Many-Objective optimization Approach for Complexity-based Data set Generation [Conference paper]. 2020 IEEE Congress on Evolutionary Computation (CEC), 1–8. https://doi.org/10.1109/CEC48606.2020.9185543 [^2]: Núria Macià, Albert Orriols-Puig, and Ester Bernadó-Mansilla. 2010. In search of targeted-complexity problems. In Proceedings of the 12th annual conference on Genetic and evolutionary computation (GECCO '10). Association for Computing Machinery, New York, NY, USA, 1055–1062. DOI:https://doi.org/10.1145/1830483.1830674 [^3]: V. V. de Melo and A. C. Lorena, "Using Complexity Measures to Evolve Synthetic Classification Datasets," 2018 International Joint Conference on Neural Networks (IJCNN), 2018, pp. 1-8, doi: 10.1109/IJCNN.2018.8489645.