Open tobozo opened 1 month ago
@tobozo Tu peux m'inviter aussi stp ? si j'ai de la bande passante, j'essaierais de faire du tri aussi
Hello, j'ai déjà harvest madchat, il n'y a rien a en tiré je pense, french-ezine est même plus complet que madchat niveau scene-fr
@Xyl2k quelle était la source? le dump est celui du ftp de madchat, pas une copie dégradée d'un miroir http, du coup je crois que ça vaut quand meme le coup de comparer, il y a quelques pieces rares ^^
par exemple dans le repo madchat on trouve le premier coredump de NeurAlien (1992)
une comparaison sur le nombre de mags (dossiers) indique que le repo madchat en contient une dizaine en plus (114 vs 105), ce a quoi on peut ajouter une cinquantaine de fichiers (non classés ou one-shot) qui se trouvent a la racine du dossier emags
j'ai du utilisé les mirrors déjà mis en ligne sur le web (ivanlef0u, etc..) j'avais déjà fait un tweet coup-de-geule a l'époque en 2018 par rapport a toute ces copies dégradés https://x.com/Xylit0l/status/1076117240771162114
Relou les copies dégradées, après c'est pareil, je vais m'occuper des phrack-fr car on a que le 61 actuellement alors qu'il y en a des dizaines en plus, dans les prochains jours je ferais un push pour rajouter les autres
j'ai commencé a bidouiller le CI pour générer des directory listings:
https://madchat.github.io/french-ezines/
probleme: certains ezines au format txt datent d'avant unicode et se font massacrer par le browser
exemples de fichiers encodés en IBM-850:
pour ceux qui sont encodés en cp1252/iso8859-* c'est encore plus vicieux, le repo les affiche correctement mais une fois sur le web le browser les massacre
Tu peux pas faire un gros try catch pour détecter le charset et t'adapter au bouzin ? c'est ce que je fais pour mon C2 haha
Au pire si tu arrives pas, envoie moi le truc, je vais tester de mon côté, mais ouais c'est chiant les problèmes de charset du genre
le try/catch c'est une bonne idée si on a un algo qui aboutit dans 100% des cas, sinon ça veut dire vérifier l'intégralité des ezines convertis a chaque itération de dev, donc pas forcément le plus court chemin
ou alors un text viewer en js qui utiliserait l'API TextDecoder pourrait permettre de sélectionner manuellement l'encodage au moment de la lecture, mais il faudrait que les specs supportent IBM-850 et apparemment ça n'est pas le cas :facepalm:
reste le pointage manuel au cas par cas, qui permet également d'enrichir la collection d'ezines avec des informations d'encodage pour chaque fichier, mais ou stocker cette info ?
je me suis penché sur le backup du repo madchat et les soucis de charset ne sont pas isolés aux contenus des fichiers mais aussi aux filenames
ça m'a permis de transcoder les noms des fichiers depuis cp1252 vers utf8 tout en préservant leur contenu (qui peut avoir un charset différent)
le contenu des fichiers peut etre laissé tel quel si l'encodage est déclaré coté serveur :
depuis la conf apache:
<Directory "/var/madchat.org">
AddDefaultCharset windows-1252
</Directory>
<Directory "/var/madchat.org/e-zines/coredump">
AddDefaultCharset IBM850
</Directory>
<DirectoryMatch "^/var/madchat.org/e-zines/(cryptel|noroute|noway)">
AddDefaultCharset ISO-8859-15
</Directory>
ou depuis le .htaccess:
AddDefaultCharset windows-1252
AddCharset IBM850 /var/madchat.org/e-zines/coredump/core-dump.txt
AddCharset ISO-8859-15 /var/madchat.org/e-zines/noway/noway-1.txt
# .....
du coup ça élimine github.io pour le hosting :(
plop everyone :bubbles:
j'ai push un vieux backup du site madchat sur un repo privé, on y trouve pas mal d'ezines qui manquent a ce repo
@Xyl2k si la fouille archéologique t'intéresse je peux t'inviter sur le repo :wink:
voici l'inventaire des fichiers qui s'y trouvent:
Click to expand (627 files)