heimrichhannot / contao-search-bundle

This bundle contains enhancements for Contao Search.
GNU Lesser General Public License v3.0
1 stars 3 forks source link

Wie kann ich erkennen, dass der PDF-Indexer funktioniert? #1

Closed math-GH closed 3 years ago

math-GH commented 3 years ago

Wie kann ich erkennen, dass der PDF-Indexer funktioniert?

jedoch finde ich über die Search Engine die Inhalte der PDF nicht (das Wort "Navigation" kommt u.a. darin vor).

Was triggert die indizierung der PDF-Dateien?

koertho commented 3 years ago

Hast du den Search Index neu aufgebaut?

math-GH commented 3 years ago

ja, Suchindex habe ich mehrfach neu aufgabaut

grafik

Das Suchlog funktioniert jedoch korrekt und schreibt die Eingaben in die Logdatei. Also ist die Erweiterung und die Yaml korrekt eingestellt.

koertho commented 3 years ago

Puh, also noch zwei Ideen:

Ansonsten bin ich über den Jahreswechsel nicht im Büro, könnte technische Probleme erst nächstes Jahr lösen. Eventuell kannst du dich ja Mal selbst durchdebuggen.

math-GH commented 3 years ago

Ich habe mehrere PDFs hinterlegt grafik

darin ist jeweils Text vorhanden.

In der tl_seach_index ist nichts davon zu finden.

Eine Lösung eilt bei mir nicht. Mach dir bitte einen entspannten Jahrewechsel.

koertho commented 3 years ago

Hallo, ich bin heute dazu gekommen, es nochmal zu testen. Habe auch deine Einstellungen so übernommen. Die PDFs werden problemlos indexiert. Hast du unter Systemwartung -> Crawler -> Den Suchindex aktualisieren ausgeführt?

math-GH commented 3 years ago

Hallo, ich bin heute dazu gekommen, es nochmal zu testen. Habe auch deine Einstellungen so übernommen. Die PDFs werden problemlos indexiert. Hast du unter Systemwartung -> Crawler -> Den Suchindex aktualisieren ausgeführt?

ja, hatte ich.

Wie könnte ich das am geschicktesten debuggen, damit ich rausfinde, an welcher Stelle es klemmen könnte?

koertho commented 3 years ago

Ok, weil der Screenshot, den du geschickt hast, nur das leeren der Tabelle zeigt.

Wenn du Xdebug hast, könntest du schauen, ob er hier rein geht: https://github.com/heimrichhannot/contao-search-bundle/blob/1cf32a070c323b29a98a785c59454fe6f482c39e/src/Indexer/PdfSearchIndexer.php#L100 (und dann durchdebuggen ob er irgendwo raus fliegt). Notfalls tut es auch ein die(), aber der Crawler läuft ja asynchron, da müsstest du dir dann die Rückgabe anschauen.

rorych commented 3 years ago

Hatte das gleiche Problem. Mit dem Symfony-Profiler habe ich gesehen, dass im Plugin Smalot\PdfParser ein Fehler geworfen wurde, dieser Beitrag hat das Problem bei mir dann gelöst: https://stackoverflow.com/questions/64532610/call-to-undefined-method-smalot-pdfparser-encoding-tostring

Dies wurde auch durch den Entwickler selbst gelöst, aber erst in der Version: 0.18.2 https://github.com/smalot/pdfparser/commit/b6db6aa9f605e9a82a29f1325309929a1e0beac0#diff-27bc594b24bd5e2779e8d81ee79810d0ffda03f200f0d53be007a44a9d2cb2de

Sprich schaut, dass Ihr mind. die 0.18.2 von smalot/pdfparser habt.

koertho commented 3 years ago

@rorych Danke für die Info. Bei uns ist das Problem tatsächlich nicht aufgetreten, kommt eventuell auf die PDF-Dateien an. Ich werde aber mal die minimal-Version hochdrehen, damit der Fehler nicht mehr auftritt.