Open TevenLeScao opened 2 years ago
One example from lm_fr_pseudocrawl-filtered_530_www_mediapart_fr:
The bolded part appears in thousands of docs.
Le retour de la Grèce sur les marchés est-il une si bonne nouvelle? La Grèce s'apprête à faire de nouveau appel au marché pour financer sa dette, après trois ans d'absence et sept ans de crise. Mais ce retour n'a rien de l'épilogue d'une crise interminable. C'est bien plutôt une impasse de plus qui, cependant, met en relief l'exigence d'une réduction du stock de dettes. La Grèce s’apprête donc à « revenir sur les marchés » et à émettre une dette de marché d’un montant de 4 milliards d'euros et pour une maturité de cinq ans. Même si selon le site grec Macropolis, l'opération devrait avoir lieu la semaine prochaine seulement, le succès de la manœuvre semble acquis, trois ans après la dernière apparition de la République hellénique sur le marché. À cette époque, le gouvernement de « grande coalition » d’Antonis Samaras avait levé 4,5 milliards d’euros à trois et cinq ans. Sans doute son successeur, Alexis Tsipras, devenu premier ministre en janvier 2015, célébrera-t-il ce retour comme un succès de sa politique économique, laquelle est en réalité entièrement inspirée par les « institutions » qui pilotent le troisième plan « de sauvetage » lancé en août 2015. **Le lanceur d’alerte des «Football Leaks» sera jugé au Portugal pour 90 délits Par Yann Philippin et Miguel Prado (expresso) En Italie, le mouvement des «sardines» prépare sa mue Par Cécile Debarge Pantouflage: le parlement européen durcit le ton Par Ludovic Lamant L’Iran en révolte contre le mensonge Par Jean-pierre Perrin G5 Sahel: pourquoi l’engagement militaire de la France est contesté Par La Rédaction De Mediapart Projet de loi retraites: le détail des perdants et des rares gagnants Par Romaric Godin, Mathilde Goanec et Christophe Gueugneau Le nouveau système de retraite est un piège pour les syndicats Par Romaric Godin Retraites: le compromis avec la CFDT se fait toujours attendre Par Romaric Godin et Ellen Salvi Le «moment Thatcher» d’Emmanuel Macron Par Romaric Godin En Autriche, les Verts paient au prix fort leur alliance avec la droite Par Romaric Godin PODCAST Pour EELV et le M1717, Varoufakis est un super héraut Par Christophe Gueugneau PORTFOLIO Depuis la Grèce, histoires de frontières Par Stephanos Mangriotis PODCAST Grèce: la stratégie du choc imaginée par le FMI Par Martine Orange Grèce et Union européenne : le « coup d’état financier » du 13 juillet 2015 et le capitalisme néo-libéral 23 août 2015 Par Claude Calame Dettocratie, Grèce et Podemos 2 août 2015 Par Patricio Paris GRECE / Stathis Kouvélakis : « Le non n’est pas vaincu, nous continuons » 30 juil. 2015 Par Patricio Paris Retraites: à gauche, l’introuvable débouché politique Par Pauline Graulle Municipales: au fil de la campagne Par La Rédaction De Mediapart Procès Preynat: huit ans de prison requis contre «un pédophile en série» Par Mathieu Périsse / We Report Les nazis, pionniers du management Par Joseph Confavreux
MeToo relance l’accusation de violences conjugales contre Thomas Piketty Par Lénaïg Bredoux
Affaire des Mutuelles de Bretagne: Richard Ferrand en difficulté face aux juges Par Michel Deléan Témoignage d’Adèle Haenel: le réalisateur Christophe Ruggia mis en examen pour «agressions sexuelles» Par Marine Turchi**
In deduplication we have a deduplication across document and within a document. Typically I think the one you're looking to is "across" document. What it does is:
Also we can have a filter on the size of the duplicate lines. Short duplicated lines make sense, long ones don't as they are ads
Several datasets have repeated text across examples:
The difficulty is that some datasets have legitimate repetitions, such as parliamentary proceedings (
lm_en_the_pile_europarl
f.e.)