mjpost / sacrebleu

Reference BLEU implementation that auto-downloads test sets and reports a version string to facilitate cross-lab comparisons
Apache License 2.0
1.06k stars 164 forks source link

wmt20-biomed data #149

Open nlpist opened 3 years ago

nlpist commented 3 years ago

Dear @mjpost

I wonder whether the BIOMED data from the wmt20 competition is included in sacrebleu

Thank you!

martinpopel commented 3 years ago

No. You can make a pull request. Note that downloading the files from Google drive with urllib is problematic as far as I know. It would be better to ask the Biomed organizers to upload the test sets to a permanent url (or stamt.org or github.com as is the case with most of the other test sets).

BrightXiaoHan commented 2 years ago

Hi, I wanna make a PR about this. A question here. I found wmt biomedical test set is from Papers Abstract and it's not sentence aligned. For example: wmt21 bio en-de

doc81   1       The popularity of E-Cigarettes is increasing.
doc81   2       Besides addiction and pulmonary health damage, reports of burn injuries from e-cigarette explosions are also increasing.
doc81   3       Mostly, explosions of e-cigarettes are attributed to its lithium-ion battery.
doc81   4       Due to increasing cases and missing guidelines we want to present three cases of our hospital and publish recommendations for the management of burn injuries caused by e-cigarette explosions.
doc81   5       Three cases of e-cigarette explosions which occurred between 2016 and 2019, are presented.
doc81   6       All three e-cigarette explosions occurred in the trouser pockets.
doc81   7       Two patients were male one patient was female.
doc81   8       The age ranged from 24 to 64 years, the burned total body surface area (TBSA) from 3 % to 12.5 %. All three patients required skin grafting and the length of stay in hospital ranged from five to eleven days.
doc81   9       In the synopsis of recent literature, we recommend the following management of burns due to e-cigarette explosions.
doc81   10      The guidelines of the Advanced Trauma Life Support should be followed, signs of an inhalation trauma should be checked and litmus test should be performed prior to irrigation with aqueous solutions to prevent exothermic reactions with remaining metals.
doc81   11      If litmus test shows alkali pH wounds should be irrigated by mineral oil.
doc81   1       E-Zigaretten erfreuen sich immer größerer Beliebtheit.
doc81   2       Neben abhängigkeitsrelevanten und pulmonalen Gesundheitsschäden häufen sich Berichte über Verbrennungsfolgen durch explodierende oder brennende E-Zigaretten.
doc81   3       Zumeist entstehen diese Brände durch Fehler in der Lithium-Ionen-Batterie.
doc81   4       Aufgrund der steigenden Zahlen der E-Zigaretten-Nutzer und der zunehmenden Verbrennungen durch diese Geräte möchten wir 3 Fälle unserer Klinik vorstellen und die Behandlungsstrategien erläutern.
doc81   5       Die Fälle und retrospektiven Daten von 3 Patienten, die sich zwischen 2016 und 2019 mit Verbrennungen durch E-Zigaretten vorgestellt haben, werden dargestellt.
doc81   6       Alle 3 Patienten stellten sich in der Notaufnahme mit Verbrennungen vor, die aufgrund von in der Hosentasche explodierter E-Zigaretten aufgetreten sind.
doc81   7       Zwei Patienten waren männlich und eine Patientin weiblich.
doc81   8       Das Alter der Patienten betrug 24, 30 und 64 Jahre.
doc81   9       Die verbrannten Körperoberflächen lagen zwischen 3 % und 12,5 % und benötigten Spalthauttransplantationen zwischen 1,5 % und 3,5 % der Körperoberflächen.
doc81   10      Die Patienten konnten nach 5 bis 11 Tagen aus der stationären Krankenhausbehandlung entlassen werden.
doc81   11      In Zusammenschau der vorhandenen Literatur wird bei Verbrennungsverletzungen durch explodierte E-Zigaretten folgende Behandlungsstrategie empfohlen.
doc81   12      Schwere Explosionstraumata bedürfen eines Schockraummanagements und besonders bei Explosionen während des Gebrauches sollte an ein Inhalationstrauma gedacht werden.
doc81   13      Bei alkalischem pH-Wert der Verbrennung kann es aufgrund verbliebener metallischer Reste der E-Zigarette zu einer exothermen Reaktion in Verbindung mit Wasser kommen, sodass eine Wundspülung mit Mineralöl empfohlen wird.

Is it posslble to support these doc aligned only dataset?

mjpost commented 2 years ago

Hmm, I like the idea of supporting non-sentence-aligned corpora. However, the idea of line-by-line alignment seems fairly fundamental to sacrebleu. Do you have ideas of how to handle this?

One thing we could do is merge all sentences in the same document into a single line, with sentences delimited by tabs.

Please base any PRs off the v2.2 branch!

mjpost commented 2 years ago

@BrightXiaoHan thanks for this. I'm finally getting to it, and hope to do a 2.3.0 release by next week.

Can you confirm: is this how the organizers themselves used the data? Did they merge documents and score that way?