Roromis / Lalf-Forumactif

Script permettant de convertir un forum hébergé par Forumactif en forum phpbb.
https://roromis.github.io/Lalf-Forumactif/
GNU General Public License v3.0
21 stars 13 forks source link

Récup des membres : mauvaise récup de la page #20

Closed Supermanu closed 8 years ago

Supermanu commented 11 years ago

Bonjour, j'ai eu également un problème de récupération des membres. Ça n'a pas l'air d'être le problème d'encodage. D'abord, la ligne d'erreur n'est pas la même:

ERROR : Une erreur s'est produite. Essayez de relancer le script. Pour plus d'informations, consultez le fichier debug.log. Traceback (most recent call last): File "forumactif-phpbb.py", line 437, in etapes[i]() File "forumactif-phpbb.py", line 265, in get_users id = int(re.search("&u=(\d+)&", e("td a").eq(0).attr("href")).group(1)) AttributeError: 'NoneType' object has no attribute 'group'

Ensuite en fouillant un peu, j'ai remarqué que le simple fait de charger deux fois de suite la page avec d=PyQuery(…) ne donnait pas le même résultat (le d.text() n'est pas le même). La deuxième fois, je tombe sur la page d'accueil (comme si j'étais déconnecté).

C'est seulement en lui demandant de se reconnecter au forum après chaque page, qu'il arrive à prendre tous les membres. Ce n'est sûrement pas une solution à long terme mais ça fonctionne.

apcloic commented 11 years ago

Bonjour,

Peux-tu stp nous indiquer comment tu as résolu le problème car je ne connais pas Python et je ne sais donc pas comment indiquer au script de se reconnecter au forum après chaque page. Actuellement, le script récupère les 22 premiers membres puis ça plante. Voici l'extrait de l'erreur sur mon log :+1: Traceback (most recent call last): File "./forumactif-phpbb.py", line 439, in etapes[i]() File "./forumactif-phpbb.py", line 267, in get_users id = int(re.search("&u=(\d+)&", e("td a").eq(0).attr("href")).group(1)) File "/usr/lib/python2.7/re.py", line 142, in search return _compile(pattern, flags).search(string) TypeError: expected string or buffer 16/09/2013 13:23:31 - INFO : Sauvegarde de la progression Merci d'avance ;)

Supermanu commented 11 years ago

Salut, Malheureusement au bout de quelques pages la reconnexion n'est pas suffisante et il n'arrive pas à récupérer tous les membres. En fait, le problème c'est la récup de l'email qui doit passer par les pages d'administration. En utilisant la page qui liste tous les membres et qui est accessible à tous les membres, je n'ai aucun problème mais j'ai pas l'email. Etant donné que de toute façon, le mot de passe doit être réinitialisé par chaque membre autant leur demandé de mettre l'email avec et c'est donc pas trop grave. Par contre, j'ai un problème relativement similaire avec certain sujets du forum qu'il n'arrive pas a rapatrié. Là je suis en vacances donc je ne sais pas t'aider ni te donner mon code. Mais je devrai être revenu dans une semaine ou deux.

apcloic commented 11 years ago

Slt,

Merci bcp pour ta réponse. Je ne suis pas hyper pressé, donc je suis très volontiers preneur de ton code quand tu sera rentré. Merci d'avance !

Supermanu commented 11 years ago

Salut !

Je suis rentré de vacances et je travaille à corriger quelques problèmes supplémentaires que j'ai rencontré (dans la récup des messages). Les problèmes viennent bien d'une déconnexion intempestive. Du coup, je suis en train de tout régler correctement en le faisant reconnecter. Je vais aussi ajouter quelques info sur les membres comme l'avatar, le lieu d'origine et le site web. En tout cas, j'essaye. Mon code se trouve ici : http://github.com/Supermanu/Lalf-Forumactif (en faite, seul le fichier que j'ai modifié est forumactif-phpbb.py) N'oublie pas de supprimer le fichier save.py et les autres *.pyc quand tu recommenceras à récupérer. J'ai encore un bug avec le code que j'ai mis sur la récupération des membres de la dernières page. Je dois aussi sérieusement nettoyer le code. Je te conseille donc d'atteindre un petit peu. Je te préviendrai quand tout sera ok.

apcloic commented 11 years ago

Slt, C'est super tout ça, je vais attendre comme tu me le conseilles parce que dans tous les cas j'arrive à peine à récupérer une centaine de messages / jour sur un total de 17 000 et quelques, j'en suis à un peu moins de 5000 mais j'ai l'impression que je me fais jeter par leur serveur bcp plus vite maintenant, ils ont peut-être blacklisté l'IP de mon serveur... Merci d'avance, loic

Supermanu commented 11 years ago

Voilà, normalement ça juste marche… J'ai pas pousser les tests très loin donc ça serait vraiment cool si tu pouvais vérifier s'il y avait encore des bugs… Le forum sur lequel je suis à plus de 40 000 messages et ça prend une demi-journée pour tout récupérer.

Ce qu'il faut vérifier c'est si à la fin le nombre de forums, de topics et de messages correspond bien à ce que tu as sur ton forumactif. Ce serait vraiment sympa !

S'il y un problème n'hésite pas. Je m'accorde une pause de quelques semaines et puis j'essayerai de récupérer les mails mais c'est pas gagné…

Les seules modifications sont sur le fichier forumactif-phpbb.py ici : https://github.com/Supermanu/Lalf-Forumactif

apcloic commented 11 years ago

Bon, malheureusement ça me balance l'erreur suivante :

File "./forumactif-phpbb.py", line 255 locked = u"verrouillé" in f("td img").eq(0).attr("alt") SyntaxError: (unicode error) 'utf8' codec can't decode byte 0xe9 in position 0: unexpected end of data File "./forumactif-phpbb.py", line 255 locked = u"verrouillé" in f("td img").eq(0).attr("alt") SyntaxError: (unicode error) 'utf8' codec can't decode byte 0xe9 in position 0: unexpected end of data File "./forumactif-phpbb.py", line 255 locked = u"verrouillé" in f("td img").eq(0).attr("alt") SyntaxError: (unicode error) 'utf8' codec can't decode byte 0xe9 in position 0: unexpected end of data ^CTraceback (most recent call last): File "./launcher.py", line 11, in time.sleep(10) KeyboardInterrupt

Visiblement, c'est un problème d'encodage car dans le script original, pour que ça passe j'avais dû ajouter les valeurs suivantes dans month : month = {u'Jan' : 1, u'Fév' : 2, u'F\xc3\xa9v' : 2, u'F\u0102\u0160v' : 2, u'Mar' : 3, u'Avr' : 4, u'Mai' : 5, u'Juin' : 6, u'Juil' : 7, u'Ao\xc3\xbb' : 8, u'Aoû' : 8, u'Ao\u0102\u0165' : 8, u'Sep' : 9, u'Oct' : 10, u'Nov' : 11, u'D\xc3\xa9c' : 12, u'D\u0102\u0160c' : 12, u'Déc' : 12}

Une idée pour contourner le problème ? Merci d'avance,

Supermanu commented 11 years ago

Je n'ai pas touché à cette partie :-( Est-ce que tu as bien supprimé tous les *.pyc et le save.py avant de recommencer ? Je sais pas trop comment t'aider… Tu es sur linux, windows, mac ? Peut-être que ça vient de l'encodage de ton système ?

change peut-être à la ligne 125 encoding = "latin1" en encoding = "utf8" J'ai pas vraiment d'idée sur le moment, je vais y réfléchir.

apcloic commented 11 years ago

C'est bon, je n'avais pas saisi qu'il y avait des tas de *.pyc partout. Donc, je suis reparti sur une base saine en récupérant tout à partir d'ici : https://github.com/Supermanu/Lalf-Forumactif Par contre, le script m'a bien récupéré les statistiques et les membres puis génération du fichier SQL mais pas les messages, c'est normal ?

Supermanu commented 11 years ago

J'avais fait quelques tests et j'ai oublié de restaurer toutes les étapes… Désolé. Il faut juste supprimer la ligne 498 et décommenter la suivante. (Je viens de faire les changements sur le dépôt)

D'ailleurs faudrait que je nettoye correctement le code…

Supermanu commented 11 years ago

Supprime les lignes 161 à 163 et 182 à 184. On dirait qu'il aime pas trop… Il y a peu trop de connexion à son goût à mon avis. En tout cas, il m'a bloqué je crois.

apcloic commented 11 years ago

Bon, j'ai viré les lignes que tu m'as indiqué, ça se passait plutôt bien mais je me suis fait aussi jeter au niveau de la récup des sujets à environ 50% --> erreur 503. Du coup, j'ai tout balancé sur un autre serveur et j'ai pu avancer jusqu'à l'étape de récup des messages, le nb total de messages me semble tout à fait correct mais je me suis fait à nouveau jeter --> erreur 503 Je copie le tout sur un 3ème serveur --> j'ai pu récupérer 500 messages sur un peu moins de 18 000 avant de me faire virer...je ne sais pas si le système de déco/reco fonctionne pour les messages car c'est à peu prés le même nombre de messags que j'arrivais à récupérer par jour jusqu'à présent. Merci encore pour tout, je recommence dans 24h.

Supermanu commented 11 years ago

Quelle est cette erreur 503 ? J'ai parfois des erreurs 502 qui ne sont pas très grave puisqu'il recommence là où il s'était arrêté. Mais je n'ai jamais eu des erreurs 503. Peux-tu donner plus de détails ?

Je suis en train de récupérer tout mon forum. Pour le moment, je n'ai aucun problème… Je vais stopper pour la nuit et je finirai demain. Mais à priori, tout va bien pour moi.

EDIT: J'ai récupérer l'entièreté du forum, topics et messages compris. Tout est nickel.

MathieuMa commented 10 years ago

Supermanu : je n'avais pas vu ce thread de suite :) En fait, la solution au problème de récupération des utilisateurs depuis l'admin (et la seule façon d'avoir leur mail) est de faire une pause entre le chargement de chaque page, et d'enregistrer l'avancement pour ne pas reprendre à partir du départ en cours de route. En effet actuellement en cas de blocage, on reprend tout à partir du départ. Je vais tenter cet ajout, mais je n'ai jamais fait de python...

Supermanu commented 10 years ago

Je crois avoir déjà essayé cette solution et je crois que je me faisais bloquer à partir d'un certain moment… Mais je me souviens plus trop. J'essayerai bien à nouveau quand j'aurai le temps. Par ailleurs, la récupération des membres à partir de la page des membres accessibles à tous permet d'avoir facilement l'avatar, le site internet, etc. Le mieux serait de combiner les deux. Je vais essayer de m'y atteler.

MathieuMa commented 10 years ago

Je suis en train de merger ce que tu as fait en faisant le tri là. Effectivement, idéalement il faudrait combiner les deux : une première passe avec l'une des solution, puis compléter le tableau généré avec l'autre. Je confirme pour le blocage, ces enf*\ changent la page d'admin utilisateurs par une autre version, cette seconde page a les pb suivants :

J'ai fait un essai en ajoutant des sleep, je continue sur cette voix : une fois que tu es bloqué, tu dois attendre un certain temps (je ne sais pas exactement, 12h peut être).

Mon idée était la suivante : j'ai l'impression qu'on fait un RAZ complet de ce qui est importé (la boucle d'import reprend de toute façon à la page 0) => reprendre à la dernière page importée, en ajoutant à la liste existante (au lieu de la vider)

J'en suis là : https://github.com/MathieuMa/Lalf-Forumactif/blob/master/forumactif-phpbb.py

Supermanu commented 10 years ago

Super ! Ça fait plaisir de voir que je suis pas le seul à essayer de trouver une solution. J'avais pas trop nettoyé mon code ni rendu très efficace et lisible. J'essayerai de nettoyer un peu (je crois qu'il y a des pauses inutiles).

De ce que je me souviens (c'est en train de revenir !), trop de tentative de reconnexion en admin bloque totalement l'accès aux pages admin des membres (au-delà de la page 1). Donc c'est bien ce que tu dis. Le temps d'attente est de plus de 24h si me souviens bien… Ça me semble trop long et deviens impossible si tu as beaucoup de membres. Donc je crois qu'il faut éviter au maximum la reconnexion. Le problème, si mes souvenirs sont bons, c'est qu'il va te déconnecter après 8 ou 6 pages; d'où la nécessité de se reconnecter.

Il doit être possible de passer outre ces déconnexions, puisqu'«à la main» il est possible de tout parcourir. Malheureusement, je n'ai pas assez de connaissance technique pour comprendre ce qu'il se passe. Il y a peut-être d'autres programmes python qui permette de mieux accéder au page web (peut-être avec python3…).

Je connais pas vraiment python non plus. C'est plus ou moins le seul projet en python dans lequel je me suis intéressé mais ça se comprend très facilement.

MathieuMa commented 10 years ago

J'avais réussi à passer les 6 pages avec le sleep, mais je ne sais pas pourquoi ça a coupé encore (je ne suis pas resté le nez devant, et quand je suis revenu ma console était fermée - je le lance sur un serveur distant).

Par contre, je n'ai pas de déco franche, et l'appel à une autre page membre ne reconnecte pas (ça appelle le tid qui est placé dans une variable). À la place, ça se met à merder dès que leur protection se lève (ce que je décris au dessus) : la pagination ne marche pas, et accessoirement en page 1 tu n'as plus de mails mais une image à la place ...

En fait, si il n'y a que cet endroit qui fonctionne comme ça, même sur un gros blog tu peux patienter pendant l'import - si on arrive à mettre en place une reprise histoire de ne pas repartir à 0 à chaque lancement. (tu fais tourner le truc quand "ça marche", c'est mieux que de ne pas pouvoir récupérer les membres avec leurs mails pour les faire revenir).

Pour résumer :

FlorianDeconinck commented 10 years ago

Messieurs,

J'ai utilisé vos scripts, en les modifiants légèrement pour passer outre un nombre élevé de 503 (j'ai rajouté un délai à chaque get_connection() de 3s, j'ai bouger le sleep() de la boucle du launcher après l'exécution du main process et je l'ai augmenté à 60s, j'ai rajouté ça et là des sleep() pr ralentir), et j'ai réussi à récupérer une grosse partie du forum.

Pour les membres, je ne peux malheureusement pas vous aider : je n'ai que 45 membres soit 3 pages, soit aucun soucis. Noté qu'il y a un bug pour la dernière page. Dans construction de l'URL il y a un start="str(page*userperpages) qui est faux pr la dernière pages puisque userperpages est ajusté au dessus. En remplaçant par pageNumber calculé en début de boucle, plus de bug.

J'ai donc récupéré 10000 messages sur 20000 pour tester l'import est tout fonctionne. Attention toutefois, sous certains gestionnaires de bases (phpmyadmin d'ovh par exemple, qui date de l'antiquité) le TRUNCATE TABLE ne fonctionne pas, préférer lui un plus lent mais plus classique DELETE FROM.

Bonne chance pour le blocage users.

MathieuMa commented 10 years ago

Merci FlorianDeconinck !

J'ai fait des modifs sur ma branche en prenant ce que vous précisiez - merci bien !

Je n'ai pas tout compris sur le placement des autres sleep (j'ai effectivement bougé le 3s dans le get_connection), en fait je suis toujours sur mon import user (600 à importer - j'ai l'impression que plus on bourinne cette page dans l'admin, moins on peut en appeler à la suite). Je veux bien plus de précisions pour intégrer ça :)

Merci, Mathieu

FlorianDeconinck commented 10 years ago

A vrai dire la récupération c'est faite en plusieurs fois et j'ai changé les sleep() en fonction des résultats. Je vais refaire un clean import quand j'aurai le temps parce qu'il reste encore des problèmes, notamment d'encodage (et j'ai certains titres de sujets longs qui sont coupés aussi). Une fois cela fait, j'essaierai de détaillé un peu mieux ma procédure. Ce qui est sûr, c'est que je vais virer dans la boucle le compteur qui sort après 10 fail du process, mon nombre de 503, même avec les sleeps, étant largement plus élevés que ça.

FlorianDeconinck commented 10 years ago

Update de mes fix de la nuit :

SQL :

Posts

J'ai une piste pour les email qui deviennent des images dans la page des users. J'ai remarqué que si je faisais chargé la page en question à la main en étant loggé et en utilisant les liens numérotés en bas de la liste les images redevenaient du texte.

Le code : https://gist.github.com/FlorianDeconinck/dad4428a803ca9047bd1

J'ai encore des problèmes de reconnaissance d'user (il me dédouble certains...) et de post dont le texte disparaît corps et bien.

Florian.

MathieuMa commented 10 years ago

Super merci pour les modifs ! Je ne suis pas encore arrivé là, il me reste ... 20 utilisateurs sur 540 :D

En fait, une fois que l'interface est bloqué à afficher des images, aucun lien ne fonctionne depuis l'admin : la page 1 affiche les mails "en image", et les autres pages sont cassées et retournent vers l'accueil (bug qui sent le bug volontaire ... no comment ...)

La seule solution est d'attendre un peu, et plus tu bourrines, plus il faut attendre. En gros, pour une grosse base, il faut lancer le script jusqu'à coupure, et re-tenter un jour après (le compteur semble repartir au bout de 24h)

Voici donc tes modifs reprises ici : https://github.com/MathieuMa/Lalf-Forumactif/blob/master/forumactif-phpbb.py

2013/12/11 FlorianDeconinck notifications@github.com

Update de mes fix de la nuit :

SQL :

  • Virer anonymous des users, inutile si on a plus d'un membre dans le forum, et son id est zéro ce qui pose problème à l'import sur une base phpbb3 neuve (puisque l'id est unique et qu'il va collisionner avec le premier inscrit)
  • Changer tous les TRUNCABLE TABLE en DELETE FROM

Posts

  • fa_opener : passer le charset en utf-8 avec option 'replace' à la conversion en unicode (si erreur à la tentative de passage en unicode les caractères spéciaux ne vont pas être encoder correctement)
  • Fix de la récupération des titres de posts avec espace (coupé au premier espace auparavant)

J'ai une piste pour les email qui deviennent des images dans la page des users. J'ai remarqué que si je faisais chargé la page en question à la main en étant loggé et en utilisant les liens numérotés en bas de la liste les images redevenaient du texte.

Le code : https://gist.github.com/FlorianDeconinck/dad4428a803ca9047bd1

J'ai encore des problèmes de reconnaissance d'user (il me dédouble certains...) et de post dont le texte disparaît corps et bien.

Florian.

— Reply to this email directly or view it on GitHubhttps://github.com/Roromis/Lalf-Forumactif/issues/20#issuecomment-30286769 .

FlorianDeconinck commented 10 years ago

Nouveau morceau de nuit.

J'ai laissé un bout de code dans mon gist de la denière fois. A la fin de get_forum il a un if n == 3 break; qui me sert à faire des récupérations que sur les 3 premiers forums (20000 posts en tout donc je récupère pas tous sinon j'en ai pour la nuit...). Donc à enlever.

Sinon, le sleep(30) que j'ai mis dans le try de get_connection() est suffisant pour récupérer les posts, mon test du soir m'a permis de récupérer 2000 posts en un seul run du script et avec l'encodage impec. Réplication sur une base phpbb3 propre, après resynchro des forums et du BBCode via stk, tout roule !

Bientôt la récupération complète du forum donc, j'vous redirai mais a première vue ça va passer :)

Florian.

ArnoHolo commented 10 years ago

Bonjour à tous, merci pour ce code !

J'ai le même problème que vous : l'import des forums et des sujets se fait bien, mais l'import des membres bloque au bout de 20.

Du coup le code le plus récent est le tien, Florian ? On peut l'utiliser directement, il fonctionne ? (mon forum est énorme, il dépasse facilement les 20000 posts)

Merci

FlorianDeconinck commented 10 years ago

Bienvenu dans l'arène ;)

Ouais, le plus à jour doit être moi. J'ai pas pu continuer à bosser dessus, entre temps je me suis fait recruter par une boîte canadienne et du coup j'ai eu moins de temps... Mais mes derniers tests étaient plus que prometteur. Le seul soucis qu'il reste c'est les membres. Sur le forum que j'essaye de répliquer je n'ai pas ce soucis car j'ai peu de membres (une trentaine), mais au-delà d'un certain nombre les listes de membres ne sont plus des listes de textes mais des images. Hormis ça, ça devrait fonctionnait. Par contre c'est ultra lent.

(N'oublie pas de mettre ton forum en phpbb2 ac le bon template, comme décrit dans le code original)

Florian.

MathieuMa commented 10 years ago

Pour le coup, je pense être le plus à jour, j'avais intégré tes modifs plus celles que j'avais faites. Concernant le problème des utilisateurs, il n'y a pas de secret : forumactif va passer en mode sécurisé, et il faudra attendre ... J'ai fait une modif pour qu'il reprenne l'import des utilisateurs. En gros, tu lance le script, ça importe ce que ça peut, et dès que ça passe en mode "sécurisé" de leur côté ça s'arrête. Tu attends plus de 24h, et tu peux relancer … ça peut prendre un peu de temps. Il faut de la patience, pour cette étape (le plus c\ est d'attendre 24h à chaque fois - sachant que leur timer est évolutif et saute de plus en plus vite j'ai l'impression) - puis patient pour la suite.

Voici le repo : https://github.com/MathieuMa/Lalf-Forumactif/

Bon courage, et tiens nous au jus si il y a des remarques / améliorations !

ArnoHolo commented 10 years ago

Salut à vous, merci pour vos réponses rapides. :) Mathieu, j'avais utilisé ton forumactif-phpbb.py déjà, mais les membres restent bloqués à 20. Tu avais mis à jour d'autres fichiers ? Y'a pas un moyen de récupérer tout sauf l'adresse e-mail des membres, ce qui permettrait d'empêcher ce script de bloquer ? Ou simplement reconstituer la table des membres avec seulement leur pseudo (pour mon forum, je n'ai pas besoin d'avoir beaucoup d'informations sur les membres). Je m'y connais pas trop en Python, mais je essayer de regarder ça. ;)

MathieuMa commented 10 years ago

As-tu pris la dernière version ? J'avais fait pas mal de corrections. C'est en tout cas celui-ci qui fonctionne, j'ai pu au final récupérer les membres intégralement. Par contre si ça bloque directement, c'est peut être que tu as la page "foireuse" de forumactif : tu peux le voir en te connectant dans l'admin, en allant sur la liste des membres. Si les mails sont des images - c'est ça (attends 24h et quelque).

Je ne sais plus si c'est sur ce fil, mais quelqu'un avait fait une modif telle que la tienne qui ne récupérait pas les mails. L'avantage d'avoir les mails est que tu peux faire une annonce massive pour ré-inviter tout le monde :)

PS : je ne connaissais pas python plus que ça avant, là je connais à peine plus :D

ArnoHolo commented 10 years ago

Haha :D

J'ai toujours eu la page "foireuse", même avant de vouloir aspirer le forum... De ce que je me souvienne, j'ai toujours vu des images remplacer les mails...

Je vais regarder pour zapper le champ des mails du coup. J'avais déjà récupéré les mails par un autre moyen en fait (inscription proactive des membres sur une autre BDD) donc je peux tout de même faire une annonce massive. ^^

Supermanu commented 10 years ago

Salut !

Tu peux regarder sur mon dépôt ce que j'avais fait pour récupérer les membres sans les mails. C'est pas mis à jour, donc il reste peut-être des problèmes d'encodages et des trucs dans le genre mais ça fonctionnait chez moi :P Ça permettait également de récupérer le site web, l'avatar et le lieux de chaque membre mais pas le mail…

ArnoHolo commented 10 years ago

Super, merci ! D'ailleurs, je me dis qu'il pourrait être simple de récupérer l'e-mail sous forme d'image et d'utiliser une bibliothèque de reconnaissance de caractères pour transformer l'image en chaîne de caractère.

MathieuMa commented 10 years ago

Dans le genre simple, c'est violent quand même hein ;) Attends plus de 24h, tu auras autre chose que des images et ça marchera - et si tu t'en fous effectivement le code de Manu est top (ça fonctionnait bien) Tu en as combien à récupérer ? (j'en avais 600)

2014/1/15 ArnoHolo notifications@github.com

Super, merci ! D'ailleurs, je me dis qu'il pourrait être simple de récupérer l'e-mail sous forme d'image et d'utiliser une bibliothèque de reconnaissance de caractères pour transformer l'image en chaîne de caractère.

— Reply to this email directly or view it on GitHubhttps://github.com/Roromis/Lalf-Forumactif/issues/20#issuecomment-32368880 .

ArnoHolo commented 10 years ago

Plus de 2100 membres... Je viens de lancer la version de SuperManu, les membres se sont bien importés, j'attaque maintenant les messages ! o/ Merci pour vos infos. (j'ai effectivement été un peu optimiste pour la reconnaissance de caractères ^^)

EDIT : Bon, par contre l'import des messages reste à 7% depuis ce matin. Apparemment le script reste bloqué sur une page d'un topic en particulier (qui contient des caractères spéciaux, je pense que ça vient de là). Des idées pour que le script accepte ces caractères spéciaux ?

Voilà un détail sur l'erreur.

Traceback (most recent call last): File "C:\Users\Arnaud\Desktop\Lalf-Forumactif-master2\Lalf-Forumactif-master\forumactif-phpbb.py", line 528, in etapes[i]() File "C:\Users\Arnaud\Desktop\Lalf-Forumactif-master2\Lalf-Forumactif-master\forumactif-phpbb.py", line 415, in get_posts d = PyQuery(url=config.rooturl + '/a-t' + str(topic['id']) + '-' + str(page_topicsperpages) + '.htm', opener=fa_opener) File "C:\Users\Arnaud\Desktop\Lalf-Forumactif-master2\Lalf-Forumactif-master\pyquery\pyquery.py", line 170, in init html = opener(url, *_kwargs) File "C:\Users\Arnaud\Desktop\Lalf-Forumactif-master2\Lalf-Forumactif-master\forumactif-phpbb.py", line 130, in fa_opener return unicode(data, chardet.detect(data)['encoding']) File "C:\Python27\lib\encodings\cp1255.py", line 15, in decode return codecs.charmap_decode(input,errors,decoding_table) UnicodeDecodeError: 'charmap' codec can't decode byte 0xfb in position 50297: character maps to

Taolefeng commented 10 years ago

Bonjour, Est ce que quelqu'un pourrait m'envoyer la version "sans mail" svp ? Je ne m'y connais vraiment pas trop trop, et avec 1300 membres ça va prendre du temps... Merci d'avance

simonpatapon commented 10 years ago

bonjour, avez-vous du succes recemment avec le script?

peux on configurer le script pour avoir un useragen de google bot? peut etre qu il le laisserons passer?

Roromis commented 8 years ago

Je ferme ce rapport qui traite d'une ancienne version du Lalf.