geomedia / rssaggregate

Eclipse Public License 1.0
0 stars 0 forks source link

ID_Item duplication in the DB #2

Open dosimont opened 9 years ago

dosimont commented 9 years ago

Problem raised by Mathieu B. Encountered in the de_DEU_zeitu_gen flow. Examples of doubles :

About 300 doubles have been detected for the year 2014. Could be related to other issues (https://github.com/geomedia/rssaggregate/issues/3)

HuguesPecout commented 9 years ago

Je n'ai pas plus d'info que toi à ce sujet. Mais je pense qu'il s'agit d'une piste serieuse pour expliquer les problèmes d'extraction rencontrés. N'hésite pas à recréer des ID unique, cela n'aura aucune influence sur nos traitements de données en cours.

baillema commented 9 years ago

Selon Jean-Marc, la présence de doublons interne au flux est un problème mais pas entre deux flux. En effet, il est possible qu'un journal publie un article dans deux catégories, par exemple en international et en une.

dosimont commented 8 years ago

@baillema Si c'est le cas, nous ne devrions pas avoir la même ID, même si la plupart des champs de chaque item sont identiques. Il y a très certainement un bug dans la plateforme, qui autorise l'allocation de la même ID à deux items différents, probablement à cause d'un problème de synchronisation (variable partagée mal protégée, par exemple).