yorrick / download-data

Cold log analysis
0 stars 1 forks source link

Nettoyer les référents pour voir quels sont les plus courants (2 hrs) #20

Closed scameronp closed 8 years ago

scameronp commented 9 years ago

Pourrait-on extraire de l'URL des référents le nom général du site, par exemple: "google.ca", "google.com", "google.it", "erudit.org", "bing.com", etc. (ou alors, si c'est plus simple, juste "google", "erudit", "bing" sans le domaine)? Ça permettrait de regrouper les référents qui vont ensemble et de les trier.

yorrick commented 8 years ago

Ca c'est très facile à faire, avec le nom de domaine!

scameronp commented 8 years ago

SVP si c'est possible et pas trop compliqué d'ajouter aussi une colonne pour le référent, SANS le domaine? Je me disais juste que ça pourrait être intéressant, d'une part, de voir avec le nom de domaine: google.it, google.ca, etc.. Mais puisque c'est souvent google qui ressort, ça pourrait être intéressant de voir aussi, dans l'absolu, quels sont les grands sites utilisés, sans le nom de domaine : Google, une boîte mail personnelle, Érudit, etc.

yorrick commented 8 years ago

Oui c'est facile aussi!

yorrick commented 8 years ago

www.google.com scholar.google.com www.erudit.org 2349823059204580248.xxxx.mail.org www.search.yahoo.fr

scameronp commented 8 years ago

Voici la règle que je propose:

Étape 1 - vérifier s'il y a le referer_host contient les expressions exactes suivantes, dans cet ordre :

Étape 2 - si non:

N.B. ne pas tenir compte de la casse

Que faire avec ces cas problématiques? (ce sont des exemples seulement) :

yorrick commented 8 years ago

Fait!

scameronp commented 8 years ago

Merci beaucoup!! C'est très bien, mais j'ai quand même dû faire un peu de nettoyage à la main. Voici les cas problématiques que j'ai rencontrés :

facebook.com l.facebook.com m.facebook.com moodle.uqam.ca er.uqam.ca moodle2.uqam.ca google.al mail.ru ask ask toolbar google translate translate.googleusercontent.com recherche.aol.fr aol la toile du quebec via google moodle2.uqam.ca google.fr. scholar.google.com.sci-hub.org cicc.umontreal.ca lm.facebook.com dandurand.uqam.ca google.atcomet.com api.twitter.com toolbar.inbox.com politique.uqam.ca portail.uqar.ca scholar.googleusercontent.com ERUDIT.ORG scholar.uwindsor.ca pum.umontreal.ca google.com. polarite.umontreal.ca courrielweb-3.videotron.ca webmailetu-zimbra.univ-tours.fr travailsocial.uqam.ca cei.ulaval.ca bibvir.uqac.ca arts.ualberta.ca crccf.uottawa.ca cours.fsa.ulaval.ca aleph-app.uquebec.ca translation.uottawa.ca mail.student.helha.be biblio.teluq.ca mail.voila.fr webmail.iskon.hr

De plus, je me demande quoi faire avec ces referers qui indiquent un proxy. Quand un usager utilise un proxy, est-ce que le referer précise toujours "proxy"? Si oui, ce serait intéressant pour moi d'observer la proportion de downloads depuis un proxy, de regarder la proportion de proxys par pays, etc.

proxy.cegepat.qc.ca proxy.collanaud.qc.ca erudit-brebeuf.proxy.ccsr.qc.ca erudit-saintlaurent.proxy.ccsr.qc.ca proxy.cegepat.qc.ca proxy.collanaud.qc.ca erudit-brebeuf.proxy.ccsr.qc.ca erudit-alma.proxy.ccsr.qc.ca erudit-victoriaville.proxy.ccsr.qc.ca ezproxy.library.yorku.ca proxy.library.carleton.ca login.ezproxy.library.ualberta.ca ezproxy.univ-paris3.fr proxy.uqar.qc.ca erudit-levis.proxy.ccsr.qc.ca proxy2.lib.umanitoba.ca ezproxy.cegepsherbrooke.qc.ca:2048 erudit-stfelicien.proxy.ccsr.qc.ca proxy.uqar.ca ez-proxy.claurendeau.qc.ca proxy.library.brocku.ca proxy2.hec.ca:2180 erudit-chicoutimi.proxy.ccsr.qc.ca scholar.google.com.au.ezproxy2.library.usyd.edu.au proxy1.lib.umanitoba.ca ezproxy.cegepdrummond.ca proxy.cegepsth.qc.ca ezproxy.aec.talonline.ca scholar.google.co.za.ezproxy.uct.ac.za ezproxy.lakeheadu.ca scholar.google.com.ezproxy2.library.usyd.edu.au scholar.google.com.www.sndl1.arn.dz