Prepoznavanje nota i ostalih simbola notnog zapisa, te generisanje MusicXML dokumenta na osnovu fotografija notnog zapisa.
Prvobitna zamisao je da radimo prepoznavanje nota napisanih u jednom redu, a kasnije i u više redova. Generisani XML dokument se može učitati u većinu popularnijih programa za uređivanje notnog zapisa (MuseScore, Sibelius i drugi), ili pretvoriti u pdf.
Nakon učitavanja, reprodukovati prepoznate note ili generisati audio datoteku (na primjer .mid ili .mp3) je vrlo lako.
Dakle, rezultat našeg projekta bi bio softver koji bi na osnovu fotografije generisao XML dokument, koji se kasnije može učitati i kao učitan mijenjati u već postojećem softveru.
Motivacija problema
Smatramo da bi ovakav projekat, nakon uspješne realizacije, mogao naći primjenu u sljedećim slučajevima:
Digitalizacija notnih zapisa iz horskih arhiva, te arhiva u muzičkim školama,
Generisanje zvuka bi dosta olakšalo proces učenja onome ko želi da nauči novonapisano djelo,
Generisanje ljepšeg/čitljivijeg notnog zapisa (za pregled, dodavanje u udžbenike, radove i slično),
Optical Music Recognition (OMR) je oblast koja se još razvija i u kojoj dovoljno dobro rješenje ne postoji, što je samo još veća motivacija za rad na ovom projektu.
Skup podataka
Za OMR postoje mnogobrojni skupovi podataka, a neki od najboljih su dati u opisu ovog repozitorijuma).
Dataset-ovi imaju razne namjene (prepoznavanje pojedinačnih vrsta nota i simbola, klasifikacija notnih zapisa po dobu i/ili tipu, prepoznavanja rukopisa i određivanje njegovog vlasnika itd.), a mi ćemo koristiti nekoliko onih koji se pokažu kao najpogodniji za naš problem.
Trenutno, osim našeg dataset-a od 50tak jednorednih notnih zapisa (fotografije štampanih zapisa, koje smo kasnije prekucali u MuseScore softveru i eksportovali u fotografije, čime smo dobili 50 "čistih" i 50 "originalnih" fotografija), najpogodnije nam izgleda MuseScore Monophonic MusicXML Dataset, te ćemo ga sigurno koristiti.
trenutno smo zamislili da prvo pronađemo dijelove slike gdje su linijski sistemi (Sobel trenutno izgleda obećavajuće),
uklanjamo taktice,
pronalazimo ostale simbole (izdvajanjem foreground-a) i određujemo im tip (klasifikujemo) - neuronskom mrežom koju bismo obučili da prepoznaje simbole na osnovu nekog od gore pomenutih dataset-ova
3) Rekonstrukcija muzičkog zapisa, tj. generisanje prvobitnog "smisla" fotografisane kompozicije (kada je i šta zamišljeno da se odsvira - trajanje i visina tona/tonova).
4) Generisanje željenog izlaza na osnovu rekonstruisanog zapisa - MusicXML nam je trenutno prva opcija, mada se tokom rada možda odlučimo (i) za druge izlaze (MIDI, LilyPond i ostale).
Prilikom istraživanja, dosta korisnih uvodnih informacija o problemu OMR-a smo našli u ovom radu.
Metod evaluacije
1) Tačnost prepoznatih nota sa prvobitne fotografije.
2) Poredićemo strukturu generisanih MusicXML dokumenata sa postojećim zapisima iz nekog od softvera za muzičku notaciju.
Tim:
Definicija problema
Prepoznavanje nota i ostalih simbola notnog zapisa, te generisanje MusicXML dokumenta na osnovu fotografija notnog zapisa. Prvobitna zamisao je da radimo prepoznavanje nota napisanih u jednom redu, a kasnije i u više redova. Generisani XML dokument se može učitati u većinu popularnijih programa za uređivanje notnog zapisa (MuseScore, Sibelius i drugi), ili pretvoriti u pdf. Nakon učitavanja, reprodukovati prepoznate note ili generisati audio datoteku (na primjer .mid ili .mp3) je vrlo lako. Dakle, rezultat našeg projekta bi bio softver koji bi na osnovu fotografije generisao XML dokument, koji se kasnije može učitati i kao učitan mijenjati u već postojećem softveru.
Motivacija problema
Smatramo da bi ovakav projekat, nakon uspješne realizacije, mogao naći primjenu u sljedećim slučajevima:
Skup podataka
Za OMR postoje mnogobrojni skupovi podataka, a neki od najboljih su dati u opisu ovog repozitorijuma). Dataset-ovi imaju razne namjene (prepoznavanje pojedinačnih vrsta nota i simbola, klasifikacija notnih zapisa po dobu i/ili tipu, prepoznavanja rukopisa i određivanje njegovog vlasnika itd.), a mi ćemo koristiti nekoliko onih koji se pokažu kao najpogodniji za naš problem. Trenutno, osim našeg dataset-a od 50tak jednorednih notnih zapisa (fotografije štampanih zapisa, koje smo kasnije prekucali u MuseScore softveru i eksportovali u fotografije, čime smo dobili 50 "čistih" i 50 "originalnih" fotografija), najpogodnije nam izgleda MuseScore Monophonic MusicXML Dataset, te ćemo ga sigurno koristiti.
Metodologija
1) Image preprocessing - prečišćavanje (enhancement), binarizacija, skaliranje...
2) Prepoznavanje muzičkih simbola
3) Rekonstrukcija muzičkog zapisa, tj. generisanje prvobitnog "smisla" fotografisane kompozicije (kada je i šta zamišljeno da se odsvira - trajanje i visina tona/tonova).
4) Generisanje željenog izlaza na osnovu rekonstruisanog zapisa - MusicXML nam je trenutno prva opcija, mada se tokom rada možda odlučimo (i) za druge izlaze (MIDI, LilyPond i ostale).
Prilikom istraživanja, dosta korisnih uvodnih informacija o problemu OMR-a smo našli u ovom radu.
Metod evaluacije
1) Tačnost prepoznatih nota sa prvobitne fotografije. 2) Poredićemo strukturu generisanih MusicXML dokumenata sa postojećim zapisima iz nekog od softvera za muzičku notaciju.