Open dosimont opened 9 years ago
Je n'ai pas plus d'info que toi à ce sujet. Mais je pense qu'il s'agit d'une piste serieuse pour expliquer les problèmes d'extraction rencontrés. N'hésite pas à recréer des ID unique, cela n'aura aucune influence sur nos traitements de données en cours.
Selon Jean-Marc, la présence de doublons interne au flux est un problème mais pas entre deux flux. En effet, il est possible qu'un journal publie un article dans deux catégories, par exemple en international et en une.
@baillema Si c'est le cas, nous ne devrions pas avoir la même ID, même si la plupart des champs de chaque item sont identiques. Il y a très certainement un bug dans la plateforme, qui autorise l'allocation de la même ID à deux items différents, probablement à cause d'un problème de synchronisation (variable partagée mal protégée, par exemple).
Problem raised by Mathieu B. Encountered in the de_DEU_zeitu_gen flow. Examples of doubles :
About 300 doubles have been detected for the year 2014. Could be related to other issues (https://github.com/geomedia/rssaggregate/issues/3)