Thomas--F / BotTracker

BotTracker-Plugin for Piwik
GNU General Public License v3.0
32 stars 14 forks source link

Bot Liste, Tracking verbessern #18

Closed bastcom closed 8 years ago

bastcom commented 9 years ago

Hallo,

Ich habe eine Liste mit ca 450 bots die in eingebunden habe. Soll ich diese zur Verfügung stellen? Des weiteren habe ich das Problem, dass einige Bots nicht erkannt werden da Sie den namen nicht mit übersenden. Ist es möglich einmal zu Prüfen ob der Name mit im Log steht wiue es jetzt geamcht wird und ob die IP z.n. hier gelistet ist: http://bot.myip.ms/ .

Grüsse Bastian

sigih commented 9 years ago

Hallo Bastian, ich verstehe deine Frage nicht ganz. Die Liste mit den 450 Einträgen wäre super wenn die eingebunden würde. Was meinst du bitte mit Namen im LOG steht und die IP ? Ich habe einige LOG Einträge meines Webservers überprüft, die aber fast alle nicht gelogt werden - den grund kenne ich nicht. Denke aber es liegt nicht an PIWIK. Habe einige Screenschots angehängt die dir helfen sollten. sigi-0000 sigi-0001 sigi-0003 sigi-0004 sigi-0005 sigi-0006 sigi-0007 sigi-0008

Bei Fragen einfach melden. mfg Sigi

bastcom commented 9 years ago

Hallo Sigi,

danke für die Antwort. Bei BotTracker kann man ja den namen der Bots angeben. Dieser wird aus dem Log gefiltert und als Bot erkannt. Das Problem besteht darin das einige Bots wie Baiduspider z.b. den Namen nicht mit geben. Somit sieht der Zugriff aus wie von einer Person. Wenn man jetzt den Eintrag wie es jetzt gemacht wird mit der Bot liste abprüft und zusätzlich noch die IP über MYIP.MS sollte BotTracker mehr bots erkennen können.

Leider kann ich hier weder php noch zip Dateien anhängen. Wohin soll ich meine API.php senden?

Danke Grüsse Bastian

sigih commented 9 years ago

Hallo Bastian,

schick mir die Dateien auf

sigih@telfs.com mailto:sigih@telfs.com

meine private Mailadresse.

Mit freundlichen Grüßen

Sigi

Von: bastcom [mailto:notifications@github.com] Gesendet: Dienstag, 21. April 2015 13:14 An: Thomas--F/BotTracker Cc: sigih Betreff: Re: [BotTracker] Bot Liste, Tracking verbessern (#18)

Hallo Sigi,

danke für die Antwort. Bei BotTracker kann man ja den namen der Bots angeben. Dieser wird aus dem Log gefiltert und als Bot erkannt. Das Problem besteht darin das einige Bots wie Baiduspider z.b. den Namen nicht mit geben. Somit sieht der Zugriff aus wie von einer Person. Wenn man jetzt den Eintrag wie es jetzt gemacht wird mit der Bot liste abprüft und zusätzlich noch die IP über MYIP.MS sollte BotTracker mehr bots erkennen können.

Leider kann ich hier weder php noch zip Dateien anhängen. Wohin soll ich meine API.php senden?

Danke Grüsse Bastian

— Reply to this email directly or view it on GitHub https://github.com/Thomas--F/BotTracker/issues/18#issuecomment-94748435 .. https://github.com/notifications/beaco=/AJoTvbsPRHB86_W21EvQVdA84PTgv0Knks5oBihegaJpZM4EFCxN.gif

Thomas--F commented 9 years ago

Hallo Bastian, "ehrliche" Bots verraten, mit welchen User-Agent-Strings sie im Web unterwegs sind. Das Plugin sucht anhand von Schlüsselwörtern nach diesen Einträgen. Die Liste kannst du jederzeit ergänzen. Möglicherwiese schaffe ich nochmal eine zusätzliche Import-Funktion um ganze Bot-Listen hinzuzufügen.

Zusätzlich gibt es noch die "bösen" Bots, die z.B. versuchen, Gästebücher mit SPAM zu füllen oder Sicherheitslücken in deiner Webseite zu finden. Diese solltest du aber nicht mit Piwik loggen sondern nach Möglichkeit ganz von deiner Seite fernhalten. Dazu kann man z.B. Scripte wie Bot-Trap (www.bot-trap.de) verwenden.

Ich halte nicht für sinnvoll, bei jedem Page-Hit die IP-Adresse über eine externe Webseite zu prüfen. Möglich wäre das, aber bei einer wenig besuchten Seite hat man ja schon Glück, wenn die großen Bots einen finden und bei Seiten mit viel Besuchern können die vielen Anfragen eine ziemliche Bremse sein.

sigih commented 9 years ago

Da stimme ich Thomas zu - dies habe ich ausser acht gelassen. Eine Import Funktion für Listen wäre allerdings sehr interessant.

bastcom commented 9 years ago

Hallo Thomas, ja das stimmt. Eine einfachere eingabe von Bots wäre super. Sobald ich wieder neue Bots gefunden habe kann ich euch die Liste gerne wieder zukommen lassen.

Grüsse Bastian

dandv commented 9 years ago

Pardon me for jumping in, but could we use English for developers who don't speak German? I'm sure most German developers are highly educated and speak English very well.

Thomas--F commented 9 years ago

I've got no problem with that. But this discussion is not really about developing. It's more about how this plugin works and the difference between "good" bots with official keywords in the user agent and the "bad" ones (like Guestbook-SPAM-bots). This plugin is not build to protect you from the bad ones, it only seperates the "good" ones form the regular visitors. To block the "bad" ones you can use scripts like www.bot-trap.de

GoedGedaan commented 9 years ago

Now, my German isn't that good, but I see someone mentioning an list of 450 known bots. Are you going to add that list to your plugin, so that they are recognized? If so, in what version will that happen?

We are currently switching from Urchin to Piwik for statistics and have both running right now. We see huge difference in visitors between the two. Urchin is filtering out way more bots than the 38 currently listed in your plugin. We add bots by hand if we happen to come across them, but we're still a long way from having a complete list.

Thomas--F commented 9 years ago

As I wrote before: The plugin is not a protection against spam-bots or other harmful crawler. It just filters the visits of the administrated bots. I think they will cover more than 95% of all bot-visits, that you will normaly encounter. If you try to keep the list complete and up-to-date, you have to maintain more than 2000 user agents. Many of them will never hit your page but the big list will slow down you server because ever page hit is running against that list.

I will not adding a list of more than 100 bots to this plugin but you can insert as many bots as you want. Just keep an eye on the performance.

Maybe I will build an import-solution to load many bots from a text-file directly into the database. Then everyone can add as many bots as they want to. And if someone will add and maintain such a text-file into a repository.....

GoedGedaan commented 9 years ago

Thanks for the reply, Thomas. That import-option would be more than welcome.

I'm not really interested in protection against span-bots (though it would be nice), I just want to be able to identify Human-visitors and bots as accurate as possible. As I said, if we compare our figures between Urchin and Piwik (which both use the same serverlogs for analysis) we have thousand, if not tenthousands of visitors more in a month in Piwik. I would not be bothered if it were a few hundred, considering both probably calculate visitors differently, but these figures make me suspicious. The number of visitors recognized as bots in Urchin are way higher than in Piwik.

I try to get the bot-list from Urchin and compare that to the bottracker. The numbers should be more equal if both check the same botlist. An import-option would come in very handy then. :-)

Thomas--F commented 8 years ago

So, first step is done! I've implemented a simple file-import-solution. On the config-page, you can upload a file with bot-names and bot-keywords. They will be inserted as "active" with no extra-stats, if the bot-name is not already in the table.

The file should have the following structure: bot_name_1|bot_keyword_1|bot_name_2|bot_keyword_2|bot_name_3|bot_keyword_3 ...and so on.

All line feeds will be removed before processing and there is a test, if there is an even nuber of parameters in the file.

Can anyone do some beta-testing?

Thomas--F commented 8 years ago

I forgot the template-update. Now you can try the import with the current master-branch. There is an online-help, too.

Thomas--F commented 8 years ago

The import-function is out for a while and no one is complaining.