Cikkek csoportosítása, duplikátumok szűrése (M2)

pisipite commented 4 months ago

Cél: azonos tartalommal rendelkező cikkek egy csokorba gyűjtése. Ezek lehetnek 1) egy (figyelt) oldalról átvettek (az eredeti felkerül), vagy 2) közleményszerűen egy forrásból átvettek (az eredeti nem kerül fel, mert külföldi, kis lap, nem média).

Módszertan szerint 2) esetben időben a legelső kerül felvitelre.
Csak akkor kell több ezekből a cikkekből, ha többlet tartalommal bír valamelyik. Megoldás: külön kategorizálni az 1) átvett és 2) már létezik típust. 1) esetén átvételre utaló szófordulatok segítségével azonosítani és elutasítani az átvételeket 2) esetén
más forrásból származóság felismerése
ismétlődés felismerése: szövegtörzsből kulcsszókinyerés után kulcsszavak átfedésének vizsgálata.
szöveghossz szerinti azonosítás Hackathon téma lehet esetleg. Prioritás: rövid távon: átvétel felismerése szófordulatok alapján (folyamatban) Hosszabb távon: közepes, szöveghasonlóság alapú tanuló modell

pisipite commented 3 months ago

vizuális tervezés is kelleni fog majd, hogy hogyan kezeljük a csoportosított cikkeket. az én fejemben valamiféle legördülő/előugró rész van.
technikai megvalósításban egy egyszerűbb irány lehet még, ha naponkénti klaszterekbe rakjuk a cikkeket és ezeken belül cikk címe (és/vagy a lead) alapján keresünk hasonlóságokat.

boapps commented 2 months ago

Ötlet: Használhatnánk a minhash módszert, amit a Google News is használ erre.

(Forrás: Orosz György)

k-monitor / sajtoadatbazis-automat

Cikkek csoportosítása, duplikátumok szűrése (M2) #203