BartekKruczek / konkurs-ParlaMint

0 stars 0 forks source link

Pytania i odpowiedzi #1

Open BartekKruczek opened 11 months ago

BartekKruczek commented 11 months ago

@stachu86 Takie pytanko, z tego co patrzyłem to baza danych konkursu (dodatkowo) zawiera pliki z różnymi rozszerzeniami (.xml, .gzip, .ano, .tex/.tev). Dobrze rozumiem, że głównym zamysłem powinna być ekstrakcja słów, a później skorzystanie, np. z takiego modelu? Jakby na to nie patrzeć, nie mamy bazy z plikami .wave, chyba że coś przeoczyłem/źle zrozumiałem

stachu86 commented 11 months ago

@BartekKruczek no faktycznie nie ma audio... niewiem jak na to patrzyłem, chyba miałem od początku błędne przekonanie o tym korpusie, że zawiera audio... W takim wypadku pomysł, który sugerowałem, z analizą emocji z głosu oczywiście odpada, ale tak jak Pan zauważył ten model wskazany przez Pana się nadaje!

BartekKruczek commented 11 months ago

@stachu86 @JKChojnacki Dzień dobry, mamy parę pytań odnośnie konkursu. Generalnie to klasyfikacja emocji na podstawie tekstu działa, wykorzystując podesłany wcześniej model. Pytanie czy lepiej zrobić jakąś nakładkę statystyczną na wszystkie pliki, czy np. skupić się, ale dogłębniej, na jednym/paru posiedzeniach (w zamyśle podczas poważnych działań geopolitycznych). Kolejne pytanie, czy możemy prosić o dostęp do Cyfronetu? Nie ukrywamy, jak będziemy chcieli zrobić obszerną analizę to z paru milionów słów. Co Pan o tym myśli?

stachu86 commented 11 months ago

@BartekKruczek @JKChojnacki generalnie z mojego punktu widzenia im bardziej generalne podejście tym lepsze. Wiadomo, że głównym czynnikiem jest tu nakład pracy, ale imo najfajniej było by móc wskazywać początek i koniec przedziału czasowego analizy. Można by do tego przygotować kilka presetów typu Covid, Wojna na Ukrainie itp

Z tego co widzę macie nadal dostęp do grantu plginternship23(jeszcze kilkaset h na gpu) i plgstudents24 (dla moich dyplomantów, którego też moglibyscie uzywać po wykorzystaniu plginternship23)

BartekKruczek commented 11 months ago

@stachu86 Próbował Pan kiedyś sklonować repo na cyfronet? Jak próbowałem zrobić to tradycyjnymi metodami to nie chciało przejść i się zastanawiam czy nie ma jakiś dodatkowych zabezpieczeń...

stachu86 commented 11 months ago

wydaje mi się, że trzeba klucze ssh wygenerować na serwerze i dodać w udtawieniach githuba

czw., 19 paź 2023, 09:50 użytkownik Bartłomiej Kruczek < @.***> napisał:

@stachu86 https://github.com/stachu86 Próbował Pan kiedyś sklonować repo na cyfronet? Jak próbowałem zrobić to tradycyjnymi metodami to nie chciało przejść i się zastanawiam czy nie ma jakiś dodatkowych zabezpieczeń...

— Reply to this email directly, view it on GitHub https://github.com/BartekKruczek/konkurs-ParlaMint/issues/1#issuecomment-1770255591, or unsubscribe https://github.com/notifications/unsubscribe-auth/AALWN3ZIZHSR4HAHMJPC2BLYADLT3AVCNFSM6AAAAAA5ZDZVPKVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTONZQGI2TKNJZGE . You are receiving this because you were mentioned.Message ID: @.***>

BartekKruczek commented 10 months ago

@stachu86 @JKChojnacki Pojawił się pewien problem. Model przyjmuje na wejściu wypowiedzi nie dłuższe niż 512 znaków, jednak znajdą się takie nawet po 6k. I teraz rodzi się pytanie jak najlepiej to rozdzielić. Czy podzielić wypowiedzi na mniejsze porcje i wziąć największą liczbę emocji (wygenerowanych na mniejszych porcjach), czy postarać się skrócić liczbę znaków ale kosztem kontekstu całej wypowiedzi (możliwy negatywny skutek przy próbie klasyfikacji przez model), jak Pan uważa?

stachu86 commented 10 months ago

wydaje mi się, że lepiej podzielić, ale zwracać wszystkie emocje (ewentualnie znormalizowane przed ilość bloków 500 znakowych) bo przecież w takim długim wystąpieniu może być wiele emocji. Prawdopodobne trzeba by to dzielić zdaniami i można pomyśleć o nakładkowaniu. Ewetualnie poszukać też jeszcze modelu przyjmującego więcej znaków ;)

niedz., 22 paź 2023, 21:01 użytkownik Bartłomiej Kruczek < @.***> napisał:

@stachu86 https://github.com/stachu86 @JKChojnacki https://github.com/JKChojnacki Pojawił się pewien problem. Model https://huggingface.co/mrm8488/t5-base-finetuned-emotion przyjmuje na wejściu wypowiedzi nie dłuższe niż 512 znaków, jednak znajdą się takie nawet po 6k. I teraz rodzi się pytanie jak najlepiej to rozdzielić. Czy podzielić wypowiedzi na mniejsze porcje i wziąć największą liczbę emocji (wygenerowanych na mniejszych porcjach), czy postarać się skrócić liczbę znaków ale kosztem kontekstu całej wypowiedzi (możliwy negatywny skutek przy próbie klasyfikacji przez model), jak Pan uważa?

— Reply to this email directly, view it on GitHub https://github.com/BartekKruczek/konkurs-ParlaMint/issues/1#issuecomment-1774172701, or unsubscribe https://github.com/notifications/unsubscribe-auth/AALWN36SJEZFMHELTCYBSYDYAVURZAVCNFSM6AAAAAA5ZDZVPKVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTONZUGE3TENZQGE . You are receiving this because you were mentioned.Message ID: @.***>

BartekKruczek commented 10 months ago

@stachu86 Dzień dobry, jak na razie jest tyle. emotion_frequency_plot_2023-11-05_01-20-35 Próbowałem ciąć wypowiedzi biblioteką spicy, i o dziwo działa to rewelacyjnie. Ale jest pewien problem, przy całym zbiorze danych języka polskiego, na Cyfronecie przy użyciu znacznej ilości pamięci obliczeniowej, w dwa dni nie chce się to zrobić, w cale. Nie jestem pewien, ale czy to może być spowodowane tym, że liczymy to na GPU zamiast CPU? Jak na razie to jedyne co mi przyszło do głowy... Kolejną kwestią jest pozbycie się NaN z emocji, jestem w trakcie przycinania na bloki 500 znakowe, może to pomoże i się policzy w mniej niż dwie doby

stachu86 commented 10 months ago

@BartekKruczek czemu się wolno liczy to tak w ciemno ciężko mi powiedzieć, ale NaN jest bardzo dziwny, czy model jest wogóle wstanie zwrocić taką wartość?

BartekKruczek commented 10 months ago

@stachu86 Model sam z siebie tego nie zwraca, to była moja inicjatywa, aby cokolwiek się wpisało do tabelki w momencie, kiedy wypowiedź była dłuższa niż 512 znaków. Pracujemy nad przycinaniem wypowiedzi, aby się tego pozbyć, jest światełko w tunelu

stachu86 commented 10 months ago

@BartekKruczek @JKChojnacki przypominam, że zgłoszenie musi byc wysłane do 15 listopada

Na zgłoszenia czekamy do 15 listopada 2023 r. Ogłoszenie wyników odbędzie się do 30 listopada, a jeszcze przed końcem roku planujemy się spotkać na wspólnym warsztacie i wręczeniu nagród.

Jak zgłosić swój udział?

Zgłoszenie należy przesłać na adres [maciej.ogrodniczuk@gmail.com](mailto:maciej.ogrodniczuk@gmail.com) w postaci opisu, który docelowo stanie się artykułem opublikowanym w zbiorczym tomiku. Przyjmiemy każdy format tekstowy – Worda, LaTeX-a, np. w [formacie Springera](https://preview.springer.com/gp/livingreviews/latex-templates). Zgłoszenia nie muszą być anonimizowane

Jak wygląda sytuacja?

BartekKruczek commented 10 months ago

@stachu86 Praca jest w toku pisania. Mamy napisane wszystkie narzędzia i wstępne wykresy, aczkolwiek chcemy je trochę ulepszyć. Naprawiamy ostatnie błędy, powinniśmy się wyrobić. Tylko właśnie nie mamy 100% pewności czy prace wysyłamy do 15 listopada włącznie czy do 14.11 23:59... W sumie nie znaleźliśmy konkretnej informacji, która by rozwiała nasze wątpliwości. Do jutra wieczorem będzie zrobione

stachu86 commented 10 months ago

@stachu86 Tylko właśnie nie mamy 100% pewności czy prace wysyłamy do 15 listopada włącznie czy do 14.11 23:59... W sumie nie znaleźliśmy konkretnej informacji, która by rozwiała nasze wątpliwości. Do jutra wieczorem będzie zrobione

Moim zdaniem to jest raczej do 15 listopad 23:59 czyli włącznie

BartekKruczek commented 10 months ago

@stachu86 Takie pytanko, czy my możemy mieć jakiś priorytetowy dostęp do partycji plgrid-gpu-a100, jak np. w przypadku Aresa, czy nie przeskoczymy kolejki? Generalnie to potrzebujemy już tylko wyników obliczeń, problem w tym że od parunastu godzina każde z nich jest oczekujące...

stachu86 commented 10 months ago

@BartekKruczek oj nie ma szans :(

BartekKruczek commented 10 months ago

@stachu86 Dzień dobry, krótkim słowem wstępu to mamy finalny raport i prosilibyśmy Pana o informację zwrotną, czy można poprawić coś w części merytorycznej. Pojawiły się dość spore problemy z Cyfronetem (nie chciał nic liczyć), dlatego wyniki są dość okrojone. Korzystaliśmy z serwerów Microsoft Azure.

Prosimy także o informację, czy możemy wpisać Pana nazwisko do pracy (jeżeli Pan tego chce).

Od razu poruszylibyśmy kwestie drugiego konkursu. Jeżeli można wiedzieć, odezwał się ktoś jeszcze do Pana? Jesteśmy chętni i otwarci na organizacyjnego call-a. Mamy parę wstępnych pomysłów/wątpliwości.

Pozdrawiam

Raport_Chojnacki_Kruczek.pdf

stachu86 commented 10 months ago

@BartekKruczek generalnie, napewno nie podawajcie mnie jako autora, bo nic nie zrobiłem :) możecie powiedzmy mnie podać jako opiekuna naukowego gdzieś, może np. wysyłając zgłoszenie albo gdzieś na końcu. Napewno napiszczie ,że jesteście studentami z AGH :)

Moje uwagi, napiszcie jasno co powstało, progam metoda czy cokowliek, które pozwala analizować emocje. Żejest możliwość filtrowania danych po dacie czy coś... że jest w budowie strona internetowa/notebook pythonowy czy coś Dopiszcie chociaż troche jaki model został użyty (trzeba zacytować prace konkretną, nie tylko repo z huggingface). Na jakich danych został wytrenowany i mniej więcej jak działa - przyjmuje tyle a tyle znaków i zwraca jedną z emocji,

Napisałbym, że metoda może być użyta to dowolnych danych ale skupiacie się na Polskich. Generalnie nie pisałbym, że "jest to prosty problem klasyfikacyjny" - jest małko klas ale sam problem nie jest prosty.

W bibliografi powino się znaleść cytowanie tego zbioru danych parlamint. Brakuje tez podziękowania dla Plgrid, napiszcie tez może ile czasu to się liczyło.

Generarlnie jest troche przytłaczająca ilość wykesów w stosunku do tekstu, może można niektore pominąć na ten moment albo dodać wiecej tekstu miedzy wykresami (może dać tylko kilka miesięcy) i napisać, że macie metode do analizy ale sami tej analizy nie róbcie

"Część wypowiedzi, po analizie zwróciło błędne wartości (NaN)" to bardzo słabo brzmi, czym to był ospowodowane? Może napisać że dla częsci wypowiedzi model nie był wstanie wykryć emocji?

stachu86 commented 10 months ago

@BartekKruczek musicie to sprzedać :) Warto napisać jakieś podsumowanie że przeanalizowano niewiem 1420939482098203482 słów, wypowiedzi z X lat, że to zajęło X godzin obliczneiowych, że użyto state-of-art pretrenowanego modelu od detekcji emocji itp. I że można te dane pogrupowac po konkretnych dniach i czym tam jeszcze

Co do SP Cup to zgłosiło sie sporo osób, myślę, że zorganizuje spotkanie na początku przyszłego tygonia

BartekKruczek commented 10 months ago

@stachu86 Super! Dziękujemy za info, siadamy i to zmieniamy