gmum / mlls2015

Active Learning experiments for Machine Learning in Life Sciences Workshop ECML 2015
16 stars 6 forks source link

Add script initialize.py #124

Closed kudkudak closed 7 years ago

kudkudak commented 8 years ago

Wynik: zapisane datasety

igorsieradzki commented 7 years ago

https://github.com/gmum/transferchem/blob/master/src/scripts/data/initialize.py https://github.com/gmum/transferchem/blob/master/src/scripts/data/featurize_fingerprint.py

igorsieradzki commented 7 years ago

Done: https://github.com/gmum/mlls2015/blob/res/dataset/initlialize.py

kudkudak commented 7 years ago

Ha! Jest .save_meta :D (@lesniak in your face, widzisz - Igor to wymyślił niezależnie, nie da sie życ bez meta..)

kudkudak commented 7 years ago

Dopisalbys komentarze co robi ten kod dalej co tam robi jakies thresholdy odleglosci?

kudkudak commented 7 years ago

Wyglada super ogolnie, czuje sie taki szczesliwy ze mamy porzadne datasety od teraz ^^

igorsieradzki commented 7 years ago

Tak właśnie myślałem, że to może być tajemnicze, bo zmieniłem stały treshold na "dynamiczny".

igorsieradzki commented 7 years ago

Dopisałem, ale ciągle nie jest pewny czy to wyjaśnia.

Poprzedni kod (https://github.com/gmum/mlls2015/blob/dev/scripts/calculate_clustering.py#L136) miał na stałe ten treshold na 0.05, a są datasety dla których te odległości min_distances (na MolPrint2D) nie schodzą poniżej np. 0.20, wtedy kod odpowiedzialny na wybieranie klastra

probability_finding_very_close = [sum(x <= very_close_threshold)/float(x.shape[0]) for x in min_distances]
best_candidate_idx = np.argmin(probability_finding_very_close)

dawał w probability_finding_very_close same zera i wybierany był pierwszy klaster z brzegu.

kudkudak commented 7 years ago

Sounds good, dzieki

Pozdrawiam, Stanislaw Jastrzębski

W dniu 6 października 2016 13:00 użytkownik Igor Sieradzki < notifications@github.com> napisał:

Dopisałem, ale ciągle nie jest pewny czy to wyjaśnia.

Poprzedni kod (https://github.com/gmum/mlls2015/blob/dev/scripts/ calculate_clustering.py#L136) miał na stałe ten treshold na 0.05, a są datasety dla których te odległości min_distances (na MolPrint2D) nie schodzą poniżej np. 0.20, wtedy kod odpowiedzialny na wybieranie klastra

probability_finding_very_close = [sum(x <= very_close_threshold)/float(x.shape[0]) for x in min_distances] best_candidate_idx = np.argmin(probability_finding_very_close)

dawał w probability_finding_very_close same zera i wybierany był pierwszy klaster z brzegu.

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/gmum/mlls2015/issues/124#issuecomment-252024884, or mute the thread https://github.com/notifications/unsubscribe-auth/ABf8aemRI7BhGLVupGuJaY2pqYHnsRowks5qxSkogaJpZM4KLCTe .