Closed vince62s closed 1 year ago
I did another experiment with this time on News-commentary-v16 (en, de) which is supposed to be aligned 1:1 whether k=4 or 16 results are still weird: only half seems ok. is this expected ? @hoschwenk
2.7987772195920435 So the regime is making a fatal error if it thinks that its old diversionary tactics will continue to provide it with immunity. Wenn das Regime also denkt, durch seine alten Ablenkungsmanöver könnte es weiterhin seine Immunität erhalten, macht es einen entscheidenden Fehler. 2.586274870012658 Clearly, then, whatever de Coubertin might have hoped, cosmopolitanism and cross-cultural brotherhood comes less naturally to human beings than the raw emotions of the tribe. Und bricht gleichzeitig eine große Welle von Grippeinfektionen über uns herein, werden noch mehr Menschen sterben. 2.4286563032466177 Globally, emerging-market debt has increased rapidly to over $70 trillion. Diese Werte helfen vielleicht beim Familienleben, sind aber trotz bester Absichten ein Rezept für wirtschaftlichen Stillstand und langweilige Karrieren. 2.362577881895708 No one, it seemed, wanted to jeopardize the profits brought by cheap Chinese manufacturing, or the promise of access to the massive Chinese market. Immerhin muss sich die indische Regierung derzeit Gedanken darüber machen, dass das Land die Krediteinstufung „Investment Grade“ verliere könnte. 2.3618124078360503 We also know that tobacco companies have consistently lied about how much damage their products cause. Viel an der Diskussion ist jedoch bloß eine Form der „Political Correctness". 2.312390734687419 Despite significant progress on expanding global immunization, the World Health Organization reports that coverage has stalled at about 85% in recent years. Trotz erheblicher Fortschritte bei der weltweiten Verbreitung der Immunisierung berichtet die Weltgesundheitsorganisation, dass die Impfquote in den letzten Jahren bei etwa 85% stagniert. 2.278886376413501 He titled it “The United States of Europe.” Das Ziel sollte sein, Instrumente der „Soft Power“ (sanfte Macht), wie die EU-Entwicklungshilfe und wirtschaftliche Partnerschaften, mit einem wachsenden Gefühl für Europas politische und sicherheitsstrategische Reichweite zu verbinden, um sicherzustellen, dass mit Europa als globalem Player gerechnet werden kann. 2.2666849927446755 Reform is pursued hesitantly by a coalition government constantly wary of voters’ reactions. Die Reform wird zögerlich von einer Koalitionsregierung umgesetzt, die ständig auf der Hut vor den Reaktionen der Wähler ist. 2.258398338040806 As with the Vienna Initiative, a “Vienna 2.0” would require commitments by all concerned parties. Wir alle atmen dieselbe Luft. 2.2170450820527083 In search of new ways to produce higher inflation, the major central banks have tended to favor a cyclical mindset, making frequent references to insufficient aggregate demand. Auf ihrer Suche nach neuen Wegen, eine höhere Inflation herbeizuführen, favorisieren die großen Zentralbanken tendenziell eine zyklische Denkweise, wobei sie häufig auch auf die unzureichende Gesamtnachfrage verweisen.
UPDATE: in the previous post I generated embeddings in fp16 mode. When doing it in fp32, the top 10 alignment is perfect, so there must be some issues in reading fp16 embeddings in
One more thing. Both papers said for EN/DE 130M and 50M it takes 3.5hours on 8 GPU. While doing 50M / 50M, first I have to cut in pieces of 5M and process 10 x 10 couples, each takes about 3hours on 1 GPU. so will take 300 hours. There is an order difference, something weird. The reason why I have to cut in pieces is the RAM (not the GPU Ram) because mine_texts load everything in arrays, and on a 64GB ram computer it does not hold.
I have similar issues (both on the fp16
side and the speed side). Did you figure our how to solve them?
it's been 6 months now .... If I recall properly I modified the code to use iterabledatasets instead of loading everything in memory.
But in the meantime they released "stopes" which might be more usefull if your point is to mine bi-texts.
it's been 6 months now .... If I recall properly I modified the code to use iterabledatasets instead of loading everything in memory.
But in the meantime they released "stopes" which might be more usefull if your point is to mine bi-texts.
Many thanks.
When doing it in fp32, the top 10 alignment is perfect, so there must be some issues in reading fp16 embeddings in
Hi @vince62s! Apologies for not seeing this sooner! Thanks for flagging this. I had a look at
and indeed this is expecting embeddings in fp32 format. I just pushed an update so that you can run the bitext mining using embeddings generated in fp16 format. You can now simply add the argument: --fp16
when calling
and this should be all.
Indeed as you suggested earlier, for large-scale mining I would also recommend using Stopes since this is purpose-built for that use case.
I hope this helps!!
I tried to mine from two wmt news files (en, de) - generated the embeddings with - then with defaults settings ("mine", "ratio") but the results is very bad even though the margin seems good: top lines: any clue ?
1.6953904090950678 Affordable and flexible fee payment structure. Inzwischen sieht das schon ganz anders aus. 1.6196460840402447 Having toured as Beyoncé"s bassist and assistant musical director, she also has her own career as a soloist and songwriter, not to mention a new, much younger audience. Er schreibt: "Mit unglaublicher Trauer muss ich die Nachricht über den Tod meiner wunderschönen Tochter Maia teilen. 1.6135828150470815 As their popularity continues to increase, we will probably end up more focused on what happens after our favourite reality shows than what happens on them. Der Kreativität seien mithin keine Grenzen gesetzt, betont er. 1.566564394910487 With steroid medication making little difference, Karina realised that she was suffering from topical steroid addiction (TSA) and topical steroid withdrawal (TSW), when the skin reacts adversely after long-term use of topical steroids is stopped, Timo Werner kam hingegen nur auf sechs Tore und wurde mit seiner Chancenverschwendung in England phasenweise zur Witzfigur. 1.555322152863677 "I would like to thank the management and backroom team for their unwavering support and commitment and the clubs, supporters, Club Iarmhi and Westmeath County Board. SN/ Vizekanzler Werner Kogler und Klubchefin Sigrid Maurer. 1.5525301272930254 The next two corners of finance to feel the invasion of quants will be the corporate bond market - where systematic strategies are now beginning to spread - and private equity, Rattray predicts. Ismaning - Die Dramatik mit den Ismaninger Abschlussversuchen zeichnete sich in der ersten Hälfte noch nicht ab, denn die war nur wenig aufregend. Unter dem Strich hatten die Dachauer etwas mehr vom Spiel, Ismaning lauerte auf Konter und de facto neutralisierten sich alle. Der FCI präsentierte sich im defensiven Verhalten deutlich besser als zuletzt gegen Hallbergmoos und ließ nur Schüsse zu, die Torwart Radic sicher hatte. 1.5299819314567646 He's not a typical freshman, though. Das teilten Polizei und Staatsanwaltschaft am Sonntag gemeinsam mit. 1.5084004481504976 Move over hard seltzer, a new beverage is poised to become the drink of summer. Die gesellschaftliche Spaltung Israels, so viel steht fest, kann mit dieser Wahl nicht überwunden werden. 1.5046071137197825 The store is advising customers to visit its website in the first instance, before making a trip to store, where there is also an opportunity to utilise its click and collect service. If you choose this option, the team will have your items ready for you to collect within one hour. Extreme Änderungen wolle er aber nicht vornehmen: "Jetzt noch mal alles über den Haufen zu schmeißen, wäre auch nicht zielführend". Freilich werde er weiterhin jungen Spielern "eine Plattform geben, sich zu zeigen. 1.4632964789078255 We are psychologists, data scientists and HR consultants who screen, select, develop, and engage talent worldwide. Wem in der Pandemie etwas langweilig geworden und das Rasenmähen oder andere laute Gartenarbeiten eine willkommene Abwechslung ist, sollte nicht übermütig an die Sache herangehen. Denn bei Geräten wie einem motorbetriebenen Rasenmäher müssen die Ruhezeiten eingehalten sowie die Sonntags- und Feiertagsruhe respektiert werden. Haben die Nachbarn es sich nach dem Mittagessen gerade draußen bequem gemacht, sollte man besser noch etwas warten, bevor man den Rasenmäher aufheulen lässt.