csunibo / build-image

Immagine di build
0 stars 0 forks source link

Il deploy su Pages ha problemi di encoding #3

Open jgabaut opened 11 months ago

jgabaut commented 11 months ago

Ho aperto il .pdf in deploy su Pages e mi sono accorto che i caratteri sono tutti sostituiti da box chars.

Il documento sorgente (qui, credo?) non sembra presentare problemi, riesco a visualizzare il testo correttamente.

Mi chiedo se sia un problema del workflow di deploy? Non so se il .pdf sia derivato dal .pptx che ho linkato o direttamente dal .odt in /appunti/.

foxyseta commented 11 months ago

Se il PDF che hai visto è in lucidi/, è sicureamente generato dal PPTX linkato. Il workflow fa uso di Libreoffice, che storicamente fa un po' fatica con le codifiche dei caratteri predefiniti di Office. Questo problema puntualmente salta fuori con Word e Powerpoint, ma mai con LaTex, Markdown, Asciidoc, ...

Potremmo investigare se con alcune flag di Libreoffice la cosa si risolva o direttamente smettere di supportare i formati Office, che tanto sono poco usati perché formati proprietari.

Con ODT hai mai avuto questi problemi?

EDIT: errore mio! Per questi particolari formati usiamo Libreoffice. Pandoc è usato per altro (MD, LaTeX...)

jgabaut commented 11 months ago

No, non ho personalmente riscontrato problemi con il formato .odt.

Considerando il dettaglio su pandoc, sarebbe possibile ignorare il .pptx in lucidi/ e usare il .odt in appunti/ per il deploy?

Immagino basterebbe cambiare le estensioni del workflow, ammesso che l'action supporti .odt e che questa modifica sia compatibile (?) con eventuali sync dei workflow da un altro repo.

So che non è un deploy importante, mi sono accorto per caso ieri quando volevo consultare rapidamente un'info e non ero al mio pc. Grazie per la risposta celere!

foxyseta commented 11 months ago

Errore mio! Per questi particolari formati usiamo Libreoffice. Pandoc è usato per altro (MD, LaTeX...).

Ho collaudato la conversione del tuo odt in locale con libreoffice su alpine linux a funziona bene. Se vuoi puoi anche caricare il tuo pptx in formato libreoffice/openoffice o come si chiama (se usi powerpoint puoi fare "salva con nome")

@csunibo/esperti-ci-cd @VaiTon @musianisamuele ci diamo su con i docx/pptx rimuovendone il supporto (siccome le contoparti di libreoffice sembrano andare per ora)? Tanto quelle poche persone che li usano possono esportare come vogliono e abbiamo un pretesto per fare ideologia e smettere di supportare i formati proprietari.

samuelemusiani commented 11 months ago

Sono completamente d'accordo nel rimuovere il supporto per i formati proprietari quali docx e pptx. Si può sempre esportare in un formato migliore volendo

foxyseta commented 11 months ago

Come non detto 😨 Avevamo rimosso il supporto agli Open Format proprio perché questo problema si applicava anche a loro. Ho tentato di riaggiungere il supporto ed ecco cosa è successo: https://risorse.students.cs.unibo.it/ing-laboratorio-amm-sistemi-t/appunti. Toglierlo il supporto solo per Open Format e lasciarlo per i formati propietari comunque non aveva senso se il problema è comune a tutti i formati gestiti da open office (sulle Actions, siccome nel mio ambiente di sviluppo Libeoffice non dà problemi). Quindi sposterei questa issue su https://github.com/csunibo/build-image siccome probabilmente ci manca qualche pacchetto di encoding/font, e il problema è già stato riscontrato in alte repo che fanno uso di quella immagine.

@jgabaut come patch provvisoria, puoi convertire sia l'odt che il pptx in PDF, e caricare anche/invece quelli. Poi quando il supporto per gli odt/pptx/etc sarà sistemato chiudremo questa issue e non ci sarà più bisogno di lasciare i pdf.

foxyseta commented 11 months ago

@jgabaut OT: siccome ti vedo contribuire in modo attivo, se vuoi entrare in un qualsiasi gruppo di sviluppo/moderazione di @csunibo, chiedi e ti sarà dato :)

jgabaut commented 11 months ago

Ho aggiunto i file .pdf convertiti ma penso dovrei cambiargli il nome.

OT: grazie, mi piacerebbe sicuramente :) @foxyseta posso chiedere a te?

foxyseta commented 11 months ago

Certo! Il gruppo Telegram è https://t.me/csunibo/ come segnalato nel nostro sito e sul nostro profilo GitHub. Puoi entrare e dire che ti ho invitato io (https://t.me/f_o_x_y_s_e_t_a)

lucat1 commented 11 months ago

Mi rode un po' il culo a mollare docx e pptx perchè per quanto siano originati dalla M$ sono formati standardizzati e dunque aperti, chiunque potrebbe implementare supporto. Il fatto e' che libreoffice per qualche motivo non li supporta bene. Non mi oppongo alla rimozione comunque. Se la facessimo pero' penso che dovremmo convertire tutti i docx attuali in odt e uguale per i pptx (facendo questa conversione con uno strumento che funziona obv).

lucat1 commented 11 months ago

Ho aggiunto i file .pdf convertiti ma penso dovrei cambiargli il nome.

Ricordo che l'idea del supporto ai file come docx e pttx era che se si trovassero errori sono modificabili. Chiaramente le slide sono dei prof e in caso le correggono loro, mai visto una PR che modifica uno di questi file con un errore. Pero' l'idea penso non fosse sbagliata, quindi se si possero convertire i pttx e docx nelle controparti open che funzionano con la CI sarebbe meglio per me, perche' manteniamo la modificabilita'.

jgabaut commented 11 months ago

Se la facessimo pero' penso che dovremmo convertire tutti i docx attuali in odt e uguale per i pptx (facendo questa conversione con uno strumento che funziona obv).

Non ne sono sicuro ma a quanto ha scritto @foxyseta pare anche i .odt siano problematici. Quali controparti open funzionano con la CI? Non so se una cosa come .odt / .pptx => .tex sia fattibile.

foxyseta commented 11 months ago

Né Open Document né Office paiono funzionare al momento, quindi possiamo tenere il supporto a entrambi e tentare di fixarlo semplicemente. Passare dai tex sarebbe ancora più problematico.

foxyseta commented 10 months ago

Abbiamo avuto un'altra PR con odt: https://github.com/csunibo/digital-forensics/pull/2

foxyseta commented 4 months ago

Altro docx che purtroppo al momento rischia di essere convertito male: csunibo/introduzione-apprendimento-automatico#13.

Spero di avere tempo di guardare a questa cosa presto. Mi pare che semplicemente mancassero font unicode o cose simili boh