ftn-ai-lab / sc-2017-siit

Soft kompjuting - 2017 - Softversko inženjerstvo i informacione tehnologije
MIT License
1 stars 6 forks source link

Prepoznavanje i digitalizacija fotografije muzičkog zapisa - OMR #15

Closed AleksandarSavic95 closed 6 years ago

AleksandarSavic95 commented 6 years ago

Tim:

Definicija problema

Prepoznavanje nota i ostalih simbola notnog zapisa, te generisanje MusicXML dokumenta na osnovu fotografija notnog zapisa. Prvobitna zamisao je da radimo prepoznavanje nota napisanih u jednom redu, a kasnije i u više redova. Generisani XML dokument se može učitati u većinu popularnijih programa za uređivanje notnog zapisa (MuseScore, Sibelius i drugi), ili pretvoriti u pdf. Nakon učitavanja, reprodukovati prepoznate note ili generisati audio datoteku (na primjer .mid ili .mp3) je vrlo lako. Dakle, rezultat našeg projekta bi bio softver koji bi na osnovu fotografije generisao XML dokument, koji se kasnije može učitati i kao učitan mijenjati u već postojećem softveru.

Motivacija problema

Smatramo da bi ovakav projekat, nakon uspješne realizacije, mogao naći primjenu u sljedećim slučajevima:

Skup podataka

Za OMR postoje mnogobrojni skupovi podataka, a neki od najboljih su dati u opisu ovog repozitorijuma). Dataset-ovi imaju razne namjene (prepoznavanje pojedinačnih vrsta nota i simbola, klasifikacija notnih zapisa po dobu i/ili tipu, prepoznavanja rukopisa i određivanje njegovog vlasnika itd.), a mi ćemo koristiti nekoliko onih koji se pokažu kao najpogodniji za naš problem. Trenutno, osim našeg dataset-a od 50tak jednorednih notnih zapisa (fotografije štampanih zapisa, koje smo kasnije prekucali u MuseScore softveru i eksportovali u fotografije, čime smo dobili 50 "čistih" i 50 "originalnih" fotografija), najpogodnije nam izgleda MuseScore Monophonic MusicXML Dataset, te ćemo ga sigurno koristiti.

Metodologija

1) Image preprocessing - prečišćavanje (enhancement), binarizacija, skaliranje...

2) Prepoznavanje muzičkih simbola

3) Rekonstrukcija muzičkog zapisa, tj. generisanje prvobitnog "smisla" fotografisane kompozicije (kada je i šta zamišljeno da se odsvira - trajanje i visina tona/tonova).

4) Generisanje željenog izlaza na osnovu rekonstruisanog zapisa - MusicXML nam je trenutno prva opcija, mada se tokom rada možda odlučimo (i) za druge izlaze (MIDI, LilyPond i ostale).

Prilikom istraživanja, dosta korisnih uvodnih informacija o problemu OMR-a smo našli u ovom radu.

Metod evaluacije

1) Tačnost prepoznatih nota sa prvobitne fotografije. 2) Poredićemo strukturu generisanih MusicXML dokumenata sa postojećim zapisima iz nekog od softvera za muzičku notaciju.

vdragan1993 commented 6 years ago

Tema odobrena. Ostavite link ka GitHub repozitorijumu projekta. Srećan rad.

AleksandarSavic95 commented 6 years ago

Hvala :) GitHub repo