ybracke / transnormer

A lexical normalizer for historical spelling variants using a transformer architecture.
GNU General Public License v3.0
6 stars 1 forks source link

Character-wise diff of predicted and correct normalization + visualization #23

Open ybracke opened 1 year ago

ybracke commented 1 year ago
import diff_match_patch

# text_orig = "Wie die Koͤnigin endlich gezwungen ward/ etliche abzuordnen/ damit die Printzen ledig zuzehlen/ denen aber der Cardial Mazarin vorkommen/ vnd dieſelbe frey gemacht."
text_target = "Wie die Königin endlich gezwungen wurde/ etliche abzuordnen/ damit die Prinzen ledig zuzählen/ denen aber der Cardial Mazarin vorkommen/ und dieselbe frei gemacht."
text_pred = "Wie die Königin endlich gezwungen wurde / etliche abzuordnen ja damit die Prinzen ledig zuzählen, denen aber der Kardinal Mazarin vorkommen, und dieselbe frei gemacht."

# create an instance of diff_match_patch.DiffMatchPatch
dmp = diff_match_patch.diff_match_patch()

# compute the differences between the two strings
diffs = dmp.diff_main(text_pred, text_target)

# create an HTML table highlighting the differences
html = dmp.diff_prettyHtml(diffs)

# display the HTML table
from IPython.core.display import HTML
display(HTML(html))
ybracke commented 10 months ago

See this notebook