Cél: azonos tartalommal rendelkező cikkek egy csokorba gyűjtése. Ezek lehetnek 1) egy (figyelt) oldalról átvettek (az eredeti felkerül), vagy 2) közleményszerűen egy forrásból átvettek (az eredeti nem kerül fel, mert külföldi, kis lap, nem média).
Módszertan szerint 2) esetben időben a legelső kerül felvitelre.
Csak akkor kell több ezekből a cikkekből, ha többlet tartalommal bír valamelyik.
Megoldás: külön kategorizálni az 1) átvett és 2) már létezik típust.
1) esetén átvételre utaló szófordulatok segítségével azonosítani és elutasítani az átvételeket
2) esetén
más forrásból származóság felismerése
ismétlődés felismerése: szövegtörzsből kulcsszókinyerés után kulcsszavak átfedésének vizsgálata.
szöveghossz szerinti azonosítás
Hackathon téma lehet esetleg.
Prioritás: rövid távon: átvétel felismerése szófordulatok alapján (folyamatban)
Hosszabb távon: közepes, szöveghasonlóság alapú tanuló modell
vizuális tervezés is kelleni fog majd, hogy hogyan kezeljük a csoportosított cikkeket. az én fejemben valamiféle legördülő/előugró rész van.
technikai megvalósításban egy egyszerűbb irány lehet még, ha naponkénti klaszterekbe rakjuk a cikkeket és ezeken belül cikk címe (és/vagy a lead) alapján keresünk hasonlóságokat.
Cél: azonos tartalommal rendelkező cikkek egy csokorba gyűjtése. Ezek lehetnek 1) egy (figyelt) oldalról átvettek (az eredeti felkerül), vagy 2) közleményszerűen egy forrásból átvettek (az eredeti nem kerül fel, mert külföldi, kis lap, nem média).