accordproject / markdown-transform

Parse and transform markdown text, including TemplateMark markdown templates
Apache License 2.0
72 stars 50 forks source link

Characters `ti` replaced by `(` in pdf #508

Open martinratinaud opened 2 years ago

martinratinaud commented 2 years ago

Bug Report 🐛

Transform of this specific pdf file https://assets.website-files.com/615dba2b324d4ea51a398f26/622a2175014d39da4f4bf688_2022%2003%2014%20CGU%20Heetch%20France%20CLEAN.pdf leads to weird text transformation.

Steps to Reproduce

Launch

wget https://assets.website-files.com/615dba2b324d4ea51a398f26/622a2175014d39da4f4bf688_2022%2003%2014%20CGU%20Heetch%20France%20CLEAN.pdf heetch.pdf -O heetch.pdf
markus transform --input heetch.pdf --from pdf --to markdown | head -n 15

Current Behavior

1\. Objet

L’applica(on « Heetch » propose un service (ci-après l’ « Applica(on ») des(né à perme?re la

mise en rela(on de personnes recherchant un moyen de transport vers une des(na(on

donnée (ci-après : les « Passagers ») avec un exploitant de voitures de transport avec

chauffeur ou une entreprise inscrite au registre départemental des transports (ci-après : les

« Chauffeurs »).

It seems ti is replaced by (

Expected behaviour

Get as close to possible to

1. Objet
L’application « Heetch » propose un service (ci-après l’ « Application ») destiné à permettre la
mise en relation de personnes recherchant un moyen de transport vers une destination
donnée (ci-après : les « Passagers ») avec un exploitant de voitures de transport avec
chauffeur ou une entreprise inscrite au registre départemental des transports (ci-après : les
« Chauffeurs »). 

Context (Environment)

Desktop

MattiSG commented 2 years ago

This is because the ti is presented as a ligature in this document. However, this ligature is not part of Unicode’s Alphabetic Presentation Forms block (range U+FB0x for latin scripts), and had been encoded in the document as a ( character: I can reproduce markus' behaviour by copy-pasting. The publishing software of that document is Apple Pages.

Is there any way for markus to recover such an encoding?