dzieciou / tree-labeller

Helps label training data using taxonomy information.
BSD 3-Clause "New" or "Revised" License
4 stars 1 forks source link

[WIP] Calculate sample size automatically #40

Open dzieciou opened 1 year ago

dzieciou commented 1 year ago

Fixes #27.

dzieciou commented 1 year ago

Nie jest dla mnie jasne jak działa ta nowa metoda, mógłbyś zapodać jakimś wyjaśnieniem skąd takie podejscie?

Masz na myśli nowy sposób samplowania stąd: https://github.com/dzieciou/tree-labeller/blob/master/tree_labeller/tree/selectors/top_down.py?

Tam jest dokumentacja ale generalnie jest tak. Powiedzmy ze masz budzet na 5 annotacji, a twoje drzewo kategorii ma dwie główne kategorie:

Wybierasz więc pieczywo i alkohole. Zostalo ci jeszcze 3 annotacji, wiec mozesz zaczac zastępować główne kategorie podkategoriami. Ale robisz to tak, zeby z kazdej z głównych kategorii była reprezentowana, wiec:

Mowilem, ze mamy budget na 3 dodatkowe, ale w momencie kiedys wybierasz podkategorię np. pieczywo->bułki, to z sampla usuwamy pieczywo, czyli jego główną kategorię.

Zadanie domowe: Co trafiłoby do sampla, gdyby budżet wynosił 2, 3 lub 4?