Embedding - Githubissues

ladamczy commented 9 months ago

musimy jeszcze wyjąsnic co był źle z tą symulacją z embeddingiem, którą dostarczyłem tuz przed Kairem. Prosze mi pzypomnieć gdzie pojawił się problem.

PatrycjaMalinowska commented 9 months ago

problem był taki że całkowicie traciłam przypadki na końcu analizy. Po nałożeniu cięcia na wąskie okno masy mam tylko 7 przypadków

ladamczy commented 9 months ago

Musimy mieć jakąś większą ewidencje gdzie sa różnice miedzy embeddingiem a czystą symulacją. Teoretycznie nie powinniśmy tracić dużo K0 a tracimy. Embedding daje dodatkowe ślady w TPC i dodatkowe hity w ToF oraz mniejszą ilość hitów/ślad. Tutaj trzeba szukać powodu róznić.

Trzeba zrobić porównanie ciecie po cięciu (dlatego tak istotne jest mięć histogramy w konwencji n-1). Zacznijmy od:

ciecia na jeden werteks
ciecia na 4 ToF
cieicie na ilość hitów/ślad
ciecia na ilość hitów w ToF

czy tu widać róznice (jaką) między

PatrycjaMalinowska commented 9 months ago

Przesyłam porównanie MC w postaci cutflow: HistCutFlowData.pdf

PatrycjaMalinowska commented 8 months ago

Popełniłam błąd w ostatnim wykresie curflow przy wypełnianiu Nfit. Przesyłam nowy, bez NdEdx, a z dołożonym wąskim oknem masy i NTofCluster HistCutFlowData.pdf

ladamczy commented 8 months ago

czyli to N_fit>25 tak drastycznie obcina statystykę.

W prezentacji która bedzie dzisiaj Czesi maja N_fit>20.

Dobrzy by było zrobić rozkład N_fit w danych i MC .

ladamczy commented 8 months ago

N_fit>20 to raczej bardzo luzna preselecja. Nadal N_fit>25 jest rekomendowana wartościa tego ciecia. Z drugiej strony mamy w embeddingo znacznie więcej przypadków z 4 ToF. Czy Pani sprawdza ze te 4 ToF sa zmaczowane z tym jednym werteksem??

PatrycjaMalinowska commented 8 months ago

założyłam że żądając tylko 1 wierzchołka w danym przypadku to wszystkie tracki będą z nim zmatchowane.

f1pmpr commented 8 months ago

Na pewno nie wszystkie tracki sa zmatchowane z wierzcholkiem, nawet jak jest tylko jeden. Chociaz, te ktore sa zmatchowane z TOF, wydaje mi sie, ze najczesciej powinny byc zmatchowane z wierzcholkiem. Ale najlepiej to sprawdzic.

ladamczy commented 8 months ago

Generalnie ma Pani racje. w UPCDst mamy tylko ślady zmaczowane z werteksem (primary) . Więc jak jest jeden werteks to wszystkie slady powinny być z nim zmaczowane.

f1pmpr commented 8 months ago

Leszek, to jeszcze żeby to lepiej zrozumieć: to znaczy, że wsystkie ślady w przypadku są "na siłę" zmatchowane z tym pojedynczym wierzcholkiem, czy też te, które nie spełniaja kryterium takiego zmatchowania, w ogóle nie sa zapisywane w UPCDst?

ladamczy commented 8 months ago

Te które nie spełniaja warunku zmaczowania nie sa zapisywane.

PatrycjaMalinowska commented 8 months ago

Przesyłam rozkłady Nfit dla danych i MC oraz cutflow dla MC z warunkiem Nfit > 20. Proszę zignorować wcześniejsze rozkłady, miałam warunek NTOF >=4, anie NTOF == 4.

12_HistTofMatchedTracksNfitData.pdf 12_HistTofMatchedTracksNfit.pdf HistCutFlow.pdf

ladamczy commented 8 months ago

Tam sa mozliwe trzy problemy:

Generalnie embedding ma mniej dobrych przypadków i to może być efekt pile-up to znaczy oprócz werteksu K0K0 z MC mamy dodatkowe werteksy z pile'up . To możemy sprawdzić rysując rozkład ilości verteksów w obu MC. W embedingu powinno być mniej przypadków n_werteks=0 i więcej z n_werteks=2 . Nie rozumiem dlaczego w embedingu mamy więcej przypadków z n_werteks=1 i NToF=4 . Być może sa to przypadki które z MC maja 2 lub 3 ToF i dodaje sie jeden lub dwa ślady ToF i w sumie mamy 4 ToF i akceptujemy przypadki których wczęsniej nie było.
Pacząwszy od sumy ładunku 0 (dobre przypadki) mamy juz mniej przypadków w embeddingu to może być efekt dodatkowych werteksów które nakładaja sie na dobre przypadki i je usuwaja przez wymów N_werteks=1. Tutaj w analizie 4 ToF możemy próbować odzyskać te przypadki ignorując dodatkowe werteksy o N_tof<4. Czyli na początku mamy 1 werteks z ToF=4 , dowolna ilość werteksów z ToF<4 i brak werteksów z ToF>4 . Prosze sprawdzić czy odtworzymy brakujące przypadki (albo ich część).
Ostatni problem to spadek liczy przypadków w oknie masy. Czy pamieta Pani ze w MC z embedingiem w algorytmie V0 należy ustawić parametr isMC = false ? Być może tu jest jakis problem. Nowe MC ma juz poprawne pole magnetyczne i traktujemy je tak samo jak dane.

PatrycjaMalinowska commented 8 months ago

Przesyłam rozład liczby wierzchołków. 5_HistNumPrimaryVertices.pdf
Nie za bardzo rozumiem. Przesyłam cutoflow - w trzecim binie nie mam już przypadków z dowolną liczbą wierzchołków z nTOF < 4. Dla braku wierzchołków następuje spadek przy warunku na pT, ale to dlatego że na razie wymagam aby każdy track miał odpowiednie zakresy eta, pedu - mogę w pierwszej kolejności wybrać tracki ktore spełniają te warunki i na końcu sprawdzić czy dalej liczba jest > 4
Zapomniałam ustawić na false, ale po zmianie dalej mam 0 przypadków.

PatrycjaMalinowska commented 8 months ago

w danych i MC bez embeddingu mam ujemne pole magnetyczne, a dla embeddingu dodatnie - ale to raczej nie powinno mieć wpływu na brak danych w wąskim oknie masy

ladamczy commented 8 months ago

no właśnie ma.

Dlatego w rekonstrukcji V0 powinno być isMC=false. dla danych i MC bez embedingu oraz embedingu isMC=true.

PatrycjaMalinowska commented 8 months ago

mam dwa przypadki w oknie masy dla MC z embeddingiem

ladamczy commented 8 months ago

W share umieściłem nowy plik z embedingiem. Prosze sprwdzić czy nadal są dwa przypadki

PatrycjaMalinowska commented 8 months ago

tak, dalej mam 2 przypadki w oknie masy.

ladamczy commented 8 months ago

To musimy zbadać dlaczego tak mało. Zacznijmy od tego ile jest K0K0 na poziomie true. Czyli na poziomie true mamy cztery piony z pt>0.2 i |eta|<1 które pochodza z dwóch par K0. Jak to będzie to nalezy sprawdzić dlaczego je tracimy. Ile przypadków ma cztery ślady w TPC skorelowane z ionami true, Ile ma cztery ślady z ToF, ile ma jeden werteks, ....

ladamczy commented 7 months ago

według moich sprawdzeń powinniśmy mieć około 1000 przypadków z dwoma K0 w akceptancji. Jesli nawet przyjmiemy że wydajność TPc+ToF to 50% to powinniśmy widzieć 60 przypadków. Z tego połowa powinna sie "zlać" w jeden werteks czyli 30 przypadków weto na dodatkowy werteks to też pewnie 50%. Powinno zostać 15 przypadków a mamy tylko 2 . Troche dziwne ale moze tak jest. Dogeneruje jeszcze drugie tyle przypadków. Ale prosze sprawdzić czy w opcji przynajmniej jeden ToF na pare liczba przypadków powinna skoczyć o czynnik 4

ladamczy commented 7 months ago

mamy nowe MC z embeddingiem. Musimy sprawdzić które ciecia ograniczaja nam wydajność i czy mozna z nich zrezygnować.

Obecnie mamy wymóg dokładnie 4 ToF oraz drugi kanał dokładnie 3 ToF + najlepszy bez ToF. Pozostaja przypadki 5 ToF i więcej gdzie nadmiarowe ToF pochodza z embedingu. Czyli szukamy dwóch K0 (czyli 4 ToF) dla których deltaZ(production werteks) jest bliska 0 a nadmiarowe slady z ToF albo ignorujemy albo ignorujemy gdy nie pasuja do werteksu z którego pochodzą dwa K0.

ladamczy commented 5 months ago

Myślę że aby ugryźć ten problem trzeba popatrzeć najpierw na MC i troche odwrócić problem.

Najpierw patrzymy na poziom true. Selekcjonujemy przypadki gdzie mamy dwa K0 które się rozpadają na dwa piony które sa w zakresie akceptancji TPC (czyli zakres fiducial ale na poziomie true).

Następnie patrzymy czy te cztery piony maja na poziomie detektora stowarzyszony ślad w TPC (w przestrzeni eta,phi) . Jeśli tak to przypadek powinien być zmierzony. Najprawdopodobniej ma więcej śladów z ToF (5+) . Pytanie jak te dodatkowe śłady które teraz odrzucaja nam przypadek odrzucic a przypadek zostawić. Prosze zacząć od zrobienia wykresu ile jest tych dodatkowych sladów , czyli ich krotoność . Z tego wykresu ocenimy czy jest o co walczyć. Ale z moich zgrubnych przewidywań wynika ze tracimy tyle samo co widzimy czyli tracimy tutaj połowę przypadków które da się zachować.

ladamczy / STAR-Analysis

Embedding #15