Problem koji se rešava:
Automatska sumarizacija teksta korišćenjem grafova. Dva različita pristupa izgradnji grafa koja će se na kraju porediti. Za oba načina neophodno je prethodno predprocesiranje teksta, koje uključuje tokenizaciju, uklanjanje suvišnih reči, uklanjanje znakova interpunkcije i slično.
TextRankTextRank je algoritam za rangiranje rečenica u tekstu po ugledu na PageRank algoritam. Pravi se graf od teksta, tako što čvorovi grafa predstavljaju rečenice, a grane se ubacuju između svake dve rečenice sa zajedničkim rečima. Težine se dodaju granama na osnovu toga koliko zajedničkih reči rečenice imaju, po formuli: sličnost(a,b)=broj_zajedničkih_reči(a,b)/(log|a| + log|b|). Оva formula uračunava to da duže rečenice imaju više zajedničkih reči tako što kažnjava duže rečenice. Zatim se iterira TextRank alglritam do konvergencije. Najbolje rangirane rečenice se uzimaju kao sažetak teksta. Alternativno, tražiće se nabliža putanja od prve do poslednje rečenice (neophodno dodatno povezati svaku rečenicu sa njenom narednom, kako bi se osiguralo postojanje puta) pomoću BFS i UCS algoritma. Cena grane će biti usklađena sa njenom težinom.
Pristup pomoću imenica
Ovaj pristup zahteva dodatno predprocesiranje. Pošto se koriste imenice za rangiranje, potrebno je da ih bude što više u tekstu. Koristi se pronoun resolution za koji je potrebno prvo tagovati reči njihovim kategorijama. Graf se gradi tako što se za čvorove uzmu sve imenice iz teksta. Grane se postavljaju između imenica koje se nalaze u istoj rečenici, a težina grane se određuje na osnovu njihove distance (broj imenica izmedju njih). Rank svake rečenice se dobija sabiranjem rankova svih njenih imenica. Prilikom odabira najbitnijih rečenica, nakon što se rečenica odabere, rankovi njenih imenica se smanjuju množenjem sa nekim faktorom y, kako bi se izbegle ponovljene imenice.
Tehnologija koja će biti korišćena je Python3, uz pandas, nltk biblioteke za procesiranje teksta, i neuralcoref biblioteku za pronoun resolution.
Nešto više o ovome možete pročitati u seminarskom radu koji sam radio sa kolegama.
Podaci;
Tekstovi za sumiranje biće preuzeti iz Wikipedia baze podataka.
Algoritmi:
TextRank, BFS, UCS, algoritmi objašnjeni u detaljima
Metrika za merenje performansi:
Merenje sažetaka teksta se radi po dva kriterijuma: Compression ration (koliko je tekst sažet) i Retention ratio (koji deo značenja je zadržao). Takođe, važna metrika je konherentnost teksta.
Validacija rešenja:
Svaki sažetak koji koristi rečenice iz teksta je validan, pitanje je samo koliko je dobar. Porediće se dva različita pristupi problemu.
Članovi tima: Branislav Anđelić SW6-2016
Asistent: Aleksandar Lukić
Problem koji se rešava: Automatska sumarizacija teksta korišćenjem grafova. Dva različita pristupa izgradnji grafa koja će se na kraju porediti. Za oba načina neophodno je prethodno predprocesiranje teksta, koje uključuje tokenizaciju, uklanjanje suvišnih reči, uklanjanje znakova interpunkcije i slično.
TextRank TextRank je algoritam za rangiranje rečenica u tekstu po ugledu na PageRank algoritam. Pravi se graf od teksta, tako što čvorovi grafa predstavljaju rečenice, a grane se ubacuju između svake dve rečenice sa zajedničkim rečima. Težine se dodaju granama na osnovu toga koliko zajedničkih reči rečenice imaju, po formuli: sličnost(a,b)=broj_zajedničkih_reči(a,b)/(log|a| + log|b|). Оva formula uračunava to da duže rečenice imaju više zajedničkih reči tako što kažnjava duže rečenice. Zatim se iterira TextRank alglritam do konvergencije. Najbolje rangirane rečenice se uzimaju kao sažetak teksta. Alternativno, tražiće se nabliža putanja od prve do poslednje rečenice (neophodno dodatno povezati svaku rečenicu sa njenom narednom, kako bi se osiguralo postojanje puta) pomoću BFS i UCS algoritma. Cena grane će biti usklađena sa njenom težinom.
Pristup pomoću imenica Ovaj pristup zahteva dodatno predprocesiranje. Pošto se koriste imenice za rangiranje, potrebno je da ih bude što više u tekstu. Koristi se pronoun resolution za koji je potrebno prvo tagovati reči njihovim kategorijama. Graf se gradi tako što se za čvorove uzmu sve imenice iz teksta. Grane se postavljaju između imenica koje se nalaze u istoj rečenici, a težina grane se određuje na osnovu njihove distance (broj imenica izmedju njih). Rank svake rečenice se dobija sabiranjem rankova svih njenih imenica. Prilikom odabira najbitnijih rečenica, nakon što se rečenica odabere, rankovi njenih imenica se smanjuju množenjem sa nekim faktorom y, kako bi se izbegle ponovljene imenice.
Tehnologija koja će biti korišćena je Python3, uz pandas, nltk biblioteke za procesiranje teksta, i neuralcoref biblioteku za pronoun resolution.
Nešto više o ovome možete pročitati u seminarskom radu koji sam radio sa kolegama.
Podaci; Tekstovi za sumiranje biće preuzeti iz Wikipedia baze podataka.
Algoritmi: TextRank, BFS, UCS, algoritmi objašnjeni u detaljima
Metrika za merenje performansi: Merenje sažetaka teksta se radi po dva kriterijuma: Compression ration (koliko je tekst sažet) i Retention ratio (koji deo značenja je zadržao). Takođe, važna metrika je konherentnost teksta.
Validacija rešenja: Svaki sažetak koji koristi rečenice iz teksta je validan, pitanje je samo koliko je dobar. Porediće se dva različita pristupi problemu.