kasyanovse commented 6 months ago

Закрыт в связи с неактуальностью.



Разбираемся почему плохо


H0: Нет разницы в положении внутри поколения между пайплайнами с определенными мутациями H1: ~H0

Выводы и результаты:

  1. Изменение окна связано с более высоким фитнесом внутри поколения.
  2. Мутации параметров, а особенно окна, вредят фитнесу если сделать автоматический подбор окна с помощью WindowSizeSelector из
  3. Для добавления в мастер федота автоподбора окна создан PR
  4. Вроде бы новые операции делают пайплайны чуть лучше. Эффект небольшой, но статистически значимый (если стат тесты проведены корректно).
Код ```py # fedots is list with fitted Fedot objects inds = [gen for gen in chain(*[fedot.history.generations for fedot in fedots]) if gen.generation_num != 0] inds = [[x for x in gen if[0] < 10 and x.parent_operator is not None] for gen in inds] inds = [sorted(gen, key=lambda x:[0]) for gen in inds] t1 = dict() ww, wow = list(), list() strs = ('atomized', 'atomized_ts_differ')#, 'atomized_ts_to_time') wstr, wostr = {k: list() for k in strs}, {k: list() for k in strs} windows = dict() print('there are', len(list(chain(*inds))), 'individuals') for gen in inds: for _i, ind in enumerate(gen): mutation_name = ind.parent_operator.operators[0] individual_value = _i / len(gen) if 'parameter' in mutation_name: old_lagged = tuple([node.parameters['window_size'] for node in ind.parent_operator.parent_individuals[0].graph.nodes if == 'lagged' and node.parameters and 'window_size' in node.parameters]) new_lagged = tuple([node.parameters['window_size'] for node in ind.graph.nodes if == 'lagged' and node.parameters and 'window_size' in node.parameters]) if ind.native_generation not in windows: windows[ind.native_generation] = list() if new_lagged: windows[ind.native_generation].append(np.mean(new_lagged)) (wow if new_lagged == old_lagged else ww).append(individual_value) for key in wstr: (wstr if key in str(ind.graph) else wostr)[key].append(individual_value) if mutation_name not in t1: t1[mutation_name] = list() t1[mutation_name].append(individual_value) stat = lambda x, y: np.mean(x) - np.mean(y) def test(name, *args): pvalues = [scipy.stats.permutation_test(args, stat, n_resamples=1000).pvalue for _ in range(10)] return f"{name} | {stat(*args):.2f} | {np.mean(pvalues):.1%} [{np.min(pvalues):.1%}-{np.max(pvalues):.1%}]" for key in wstr: print(test(key.upper(), wstr[key], wostr[key])) if ww and wow: print(test('WINDOW MUTATION', ww, wow)) for mutation in t1: s1, s2 = t1[mutation], list(chain(*[t1[x] for x in t1 if x != mutation])) if len(s1) > 5 and len(s2) > 5: print(test(mutation, s1, s2)) ```
Вывод НАЧАЛЬНЫЙ ВЫВОД БЕЗ АВТОПОДБОРА ОКНА Мутация | Изменение квантили по метрике в поколении | pvalue | Значимая разница ---| --- | --- | --- WINDOW MUTATION | -0.2 | 0.0% | !!!!!! insert_atomized_operation | -0.2 | 0.0% | !!!!!! single_edge_mutation | 0.2 | 0.0% | !!!!!! single_change_mutation | -0.0 | 30.6% | single_add_mutation | 0.0 | 65.1% | parameter_change_mutation | 0.1 | 0.0% | !!!!!! single_drop_mutation | -0.0 | 77.0% | С АВТОПОДБОРОМ ОКНА Название мутации или типа модели | Изменение квантили по метрике в поколении | pvalue ---| --- | --- ATOMIZED | -0.01 | 44.6% [41.0%-48.2%] WINDOW MUTATION | 0.12 | 2.6% [1.6%-4.0%] insert_atomized_operation | 0.01 | 59.0% [51.3%-65.1%] parameter_change_mutation | 0.03 | 11.2% [9.6%-12.8%] single_add_mutation | -0.05 | 13.2% [11.0%-16.0%] single_change_mutation | -0.10 | 0.2% [0.2%-0.2%] single_drop_mutation | 0.05 | 9.7% [7.6%-11.4%] single_edge_mutation | 0.14 | 0.2% [0.2%-0.2%] С АВТОПОДБОРОМ ОКНА И БЕЗ НЕПОЛЕЗНЫХ МУТАЦИЙ Название мутации или типа модели | Изменение квантили по метрике в поколении | pvalue ---| --- | --- ATOMIZED | -0.04 | 0.2% [0.2%-0.2%] insert_atomized_operation | -0.02 | 4.0% [3.4%-4.4%] single_drop_mutation | 0.05 | 0.3% [0.2%-0.4%] single_add_mutation | -0.03 | 1.6% [1.2%-2.2%] single_change_mutation | 0.01 | 22.0% [18.6%-26.2%]

Сравнение метрик пайплайнов с atomized и nonatomized

Производится единственный запуск Fedot без фиксации seed на заданных данных. Считаются метрики всех моделей в процессе оптимизации в контексте одного поколения, значения метрик разделяются на группу метрик от atomized и группу метрик остальных моделей.

H0: распределения atomized и non-atomized метрик в одном поколении имеют одинаковые матожидания H1: ~H0

Вывод: H0 отвергается, на одном поколении большой мощности матожидания метрик не совпадают для atomized и non-atomized.

Листинг кода стат тестов ```py import logging from random import random from itertools import chain import numpy as np from matplotlib import pyplot as plt from scipy.stats import f_oneway, ttest_ind, alexandergovern from statistics import mean from fedot.api.main import Fedot from fedot.core.pipelines.pipeline import Pipeline from fedot.core.repository.tasks import Task, TaskTypesEnum, TsForecastingParams from import InputData from fedot.core.repository.dataset_types import DataTypesEnum from import train_test_data_setup RANDOM_SEED = 100 NUM_EXPERIMENTS = 10 ALPHA = 0.05 def get_data(data_length: int = 500, test_length: int = 100) -> InputData: garmonics = [(0.1, 0.9), (0.1, 1), (0.1, 1.1), (0.05, 2), (0.05, 5), (1, 0.02)] for _ in range(5): garmonics += [(random() * 0.1 + 0.1, random() * 2)] time = np.linspace(0, 100, data_length) data = time * 0 for g in garmonics: data += g[0] * np.sin(g[1] * 2 * np.pi / time[-1] * 25 * time) data += time * 0.1 data = InputData(idx=np.arange(0, data.shape[0]), features=data, target=data, task=Task(TaskTypesEnum.ts_forecasting, TsForecastingParams(forecast_length=test_length)), data_type=DataTypesEnum.ts) return train_test_data_setup(data, validation_blocks=1, split_ratio=(data_length - test_length) / ((data_length - test_length) + test_length)) def get_fitted_fedot(train: InputData, test: InputData, random_seed: int = RANDOM_SEED) -> Fedot: initial_assumption = None fedot = Fedot(problem='ts_forecasting', task_params=TsForecastingParams(forecast_length=test.idx.shape[0]), logging_level=logging.WARNING, timeout=5, pop_size=20, num_of_generations=3, n_jobs=10, with_tuning=False, initial_assumption=initial_assumption, ) return fedot if __name__ == '__main__': train, test = get_data() fedot = get_fitted_fedot(train, test) for population in fedot.history.generations: atomized_metrics, nonatomized_metrics = [], [] for individual in population: if < 1: if 'atomized' in individual.graph.descriptive_id: atomized_metrics.append( else: nonatomized_metrics.append( if len(atomized_metrics) and len(nonatomized_metrics): _, p_anova = f_oneway(atomized_metrics, nonatomized_metrics) _, p_ttest = ttest_ind(atomized_metrics, nonatomized_metrics) p_agovern = alexandergovern(atomized_metrics, nonatomized_metrics).pvalue print(f'\nAtomized metrics length: {len(atomized_metrics)}') print(f'Atomized metrics mean: {mean(atomized_metrics)}\n') print(f'Non-Atomized metrics length: {len(nonatomized_metrics)}') print(f'Non-Atomized metrics mean: {mean(nonatomized_metrics)}\n') print(f'ALEXANDERGOVERN: H0 {p_agovern > ALPHA} (p-value: {p_agovern})') print(f'ANOVA: H0 {p_anova > ALPHA} (p-value: {p_anova})') print(f'TTEST: H0 {p_ttest > ALPHA} (p-value: {p_ttest})\n') ```
Результаты на одном запуске fedot в одном поколении ``` Atomized metrics length: 23 Atomized metrics mean: 0.3193077976971991 Non-Atomized metrics length: 40 Non-Atomized metrics mean: 0.42342097047587063 ALEXANDERGOVERN: H0 False (p-value: 0.0009336975906277874) ANOVA: H0 False (p-value: 0.0035480628380782806) TTEST: H0 False (p-value: 0.0035480628380782525) ```
Результаты на нескольких запусках fedot при фиксированных данных diff - абсолютная разница между nonatomized mean и atomized mean `atomized mean metric`|`nonatomized mean metric`|`diff` ------------------------|---------------------------|----------------------- 0.40310965163897533|0.5258254039784768|0.12271575233950144 0.38941925878670225|0.5029692174546525|0.11354995866795026 0.39899222822731417|0.4946715308181331|0.09567930259081892 0.3828210686266902|0.3825838994677389|-0.0002371691589512781 0.40596368379091746|0.4952406389814257|0.08927695519050821 0.3794686018324255|0.3911405440142768|0.011671942181851303 0.38953820082509855|0.49915707765067835|0.1096188768255798 0.38192409680048195|0.4793310851871796|0.09740698838669765 0.3824244353971997|0.35815678898201725|-0.024267646415182476 0.40142854838786285|0.5070242861220102|0.10559573773414738 0.3655888254449583|0.4032475104193803|0.037658684974421985 0.39817458028926306|0.5014504247826739|0.10327584449341082 0.3848995605685277|0.44268693656915314|0.057787376000625446 0.4030127105036263|0.5233831563043596|0.1203704458007333 0.3926023945342515|0.4266703314578744|0.03406793692362292 0.38813247164237114|0.49407357595967194|0.1059411043173008 0.3702466107812836|0.3582309620735185|-0.012015648707765114
