Closed scameronp closed 8 years ago
Ca c'est très facile à faire, avec le nom de domaine!
SVP si c'est possible et pas trop compliqué d'ajouter aussi une colonne pour le référent, SANS le domaine? Je me disais juste que ça pourrait être intéressant, d'une part, de voir avec le nom de domaine: google.it, google.ca, etc.. Mais puisque c'est souvent google qui ressort, ça pourrait être intéressant de voir aussi, dans l'absolu, quels sont les grands sites utilisés, sans le nom de domaine : Google, une boîte mail personnelle, Érudit, etc.
Oui c'est facile aussi!
www.google.com scholar.google.com www.erudit.org 2349823059204580248.xxxx.mail.org www.search.yahoo.fr
Voici la règle que je propose:
Étape 1 - vérifier s'il y a le referer_host contient les expressions exactes suivantes, dans cet ordre :
Étape 2 - si non:
N.B. ne pas tenir compte de la casse
Que faire avec ces cas problématiques? (ce sont des exemples seulement) :
Fait!
Merci beaucoup!! C'est très bien, mais j'ai quand même dû faire un peu de nettoyage à la main. Voici les cas problématiques que j'ai rencontrés :
facebook.com l.facebook.com m.facebook.com moodle.uqam.ca er.uqam.ca moodle2.uqam.ca google.al mail.ru ask ask toolbar google translate translate.googleusercontent.com recherche.aol.fr aol la toile du quebec via google moodle2.uqam.ca google.fr. scholar.google.com.sci-hub.org cicc.umontreal.ca lm.facebook.com dandurand.uqam.ca google.atcomet.com api.twitter.com toolbar.inbox.com politique.uqam.ca portail.uqar.ca scholar.googleusercontent.com ERUDIT.ORG scholar.uwindsor.ca pum.umontreal.ca google.com. polarite.umontreal.ca courrielweb-3.videotron.ca webmailetu-zimbra.univ-tours.fr travailsocial.uqam.ca cei.ulaval.ca bibvir.uqac.ca arts.ualberta.ca crccf.uottawa.ca cours.fsa.ulaval.ca aleph-app.uquebec.ca translation.uottawa.ca mail.student.helha.be biblio.teluq.ca mail.voila.fr webmail.iskon.hr
De plus, je me demande quoi faire avec ces referers qui indiquent un proxy. Quand un usager utilise un proxy, est-ce que le referer précise toujours "proxy"? Si oui, ce serait intéressant pour moi d'observer la proportion de downloads depuis un proxy, de regarder la proportion de proxys par pays, etc.
proxy.cegepat.qc.ca proxy.collanaud.qc.ca erudit-brebeuf.proxy.ccsr.qc.ca erudit-saintlaurent.proxy.ccsr.qc.ca proxy.cegepat.qc.ca proxy.collanaud.qc.ca erudit-brebeuf.proxy.ccsr.qc.ca erudit-alma.proxy.ccsr.qc.ca erudit-victoriaville.proxy.ccsr.qc.ca ezproxy.library.yorku.ca proxy.library.carleton.ca login.ezproxy.library.ualberta.ca ezproxy.univ-paris3.fr proxy.uqar.qc.ca erudit-levis.proxy.ccsr.qc.ca proxy2.lib.umanitoba.ca ezproxy.cegepsherbrooke.qc.ca:2048 erudit-stfelicien.proxy.ccsr.qc.ca proxy.uqar.ca ez-proxy.claurendeau.qc.ca proxy.library.brocku.ca proxy2.hec.ca:2180 erudit-chicoutimi.proxy.ccsr.qc.ca scholar.google.com.au.ezproxy2.library.usyd.edu.au proxy1.lib.umanitoba.ca ezproxy.cegepdrummond.ca proxy.cegepsth.qc.ca ezproxy.aec.talonline.ca scholar.google.co.za.ezproxy.uct.ac.za ezproxy.lakeheadu.ca scholar.google.com.ezproxy2.library.usyd.edu.au scholar.google.com.www.sndl1.arn.dz
Pourrait-on extraire de l'URL des référents le nom général du site, par exemple: "google.ca", "google.com", "google.it", "erudit.org", "bing.com", etc. (ou alors, si c'est plus simple, juste "google", "erudit", "bing" sans le domaine)? Ça permettrait de regrouper les référents qui vont ensemble et de les trier.