Open LeandroBraier opened 9 years ago
Marce, pudiste probar algo de esto?
Más que hashtags decidimos traer keywords, por que los hashtags son muy del momento y es muy difícil encontrar la info. Las keywords para la primera prueba son:
"asado"
"hamburguesa"
"la paty"
"una paty"
Podés delimitar si son de Chile o no los tweets por ejemplo?
Como la idea (de MS) era hacerlo sin APIs, empecé desarrollando un scraper para lo de Tweeter, tengo bastante idea de como sacar los datos, pero todavia no llegue a armar una base de datos. La idea es que en la base de datos diga keyword, la fuente de donde se tomo (tweeter/instagram/facebook/etc.) y todos los datos que se puedan extraer sobre fecha, el que posteó (incluyendo algun tipo de locacion fisica), y obviamente el contenido (texto, fotos, etc asociados). Gran parte de esto que hice seguramente se va a poder aplicar a Instagram, lo que no creo que se pueda acceder a lo de Facebook sin API.
Genial MK! Y en qué te puedo ayudar con eso de la API de Facebook? Te averiguo algo?
Creo que hay que crear una app de facebook específica no?
El problema con usar el API de facebook es que nos van a terminar bloqueando. SI tenes algun usuario trucho (para no comprometer el mio ya que ahi tenemos andando las app de klaukol, danica, etc.) fijate de crear una app y pasarme los datos de APP ID y tokens que te aparezcan, con eso vamos ganando algo de tiempo.
Marce, con esto de Twitter e Instagram, a qué hora podremos tener una primera bajada de datos? Aunque sea en RAW?
Instagram ni empece a mirar. De Twitter te puedo pasar raw pero es una estructura, no algo que puedas mirar con excel. Te mando en un rato y si queres lo formateamos un poco mejor.
Dale, perfecto. Gracias!
Leandro Braier Producción Audiovisual & Social Media Benteveo Producciones http://benteveo.tv Móvil 1158717399
2015-07-23 14:55 GMT-03:00 mkreyness notifications@github.com:
Instagram ni empece a mirar. De Twitter te puedo pasar raw pero es una estructura, no algo que puedas mirar con excel. Te mando en un rato y si queres lo formateamos un poco mejor.
— Reply to this email directly or view it on GitHub https://github.com/LeandroBraier/DataScience/issues/1#issuecomment-124182699 .
Los resultados que obtengo filtrando por keyword + ubicacion del que postea realmente son minimos. Si pongo "chile" como una segunda keyword esta mal porque la gente no tiene por que escribir Chile en el texto. O sea, busco por keyword y despues refiltro usuarios segun su location (y no todos lo tienen, o tienen la ciudad sin el pais). Entonces la probabilidad de que en la pagina de tweets que me trae para el keyword (los mas recientes) que justo haya un chileno es baja. De hecho me vienen 0, con "Argentina" me viene 1. Obviamente con hashtag "lacrianza" me vienen todos de chile.
Ah ! Encontre una forma de especificarle "near" un lugar en la busqueda en Twitter. Si pongo "Santiago de Chile" anda bastante mejor.
Nueva idea para poder levantar mas resultados: me fijo la fecha del twit mas viejo que encuentro y vuelvo a lanzarlo con esa fecha como limite maximo. Algunos se van a duplicar, pero es mejor eso que perder una parte del dia.
Me parece excelente MK! Muy bueno.
Fijate si podés llegar así hasta la independencia del año pasado en estas 4 búsquedas y veamos total de tweets de cada keyword y palabras más repetidas en cada una, más allá de la keyword, se puede?
Leandro Braier Producción Audiovisual & Social Media Benteveo Producciones http://benteveo.tv Móvil 1158717399
2015-07-23 19:32 GMT-03:00 mkreyness notifications@github.com:
Nueva idea para poder levantar mas resultados: me fijo la fecha del twit mas viejo que encuentro y vuelvo a lanzarlo con esa fecha como limite maximo. Algunos se van a duplicar, pero es mejor eso que perder una parte del dia.
— Reply to this email directly or view it on GitHub https://github.com/LeandroBraier/DataScience/issues/1#issuecomment-124255973 .
Ok pero "Paty" y "La Paty" son de cualquier otra cosa, ninguna parece ser real. Antes de contar habria que filtrar mucho. Cada tweet tiene hashtags, eso es lo que queres contar o las palabras sueltas dentro del tweet ? Puede haber montones de palabras irrelevantes, pero muy repetidas.
Claro, los hashtags más usados dentro de esa nube de tweets por ser interesante.
Pero mira que no estoy BUSCANDO por hashtag sino por search en los tweets, al menos eso entendi que habia que hacer cuando me dijiste keywords en vez de hashtag.
Claro. Y hacés bien.
Yo lo que te pido tiene que ver con "cómo ordenar ese universo de datos que ya recolectaste". No solo tener una lista de tweets sino un conteo por cada grupo de tweets correspondiente a cada keyword:
"cantidad de tweets" "palabras significativas (no articulos como la, de, etc) más mencionadas" "hashtags más mencionados" "horarios con mayor cantidad de tweets" etc
Si hay suficiente cantidad de info podríamos subdividr estos 4 análisis por mes desde agosto 2014 hasta ahora ponele. Se puede hacer eso?
Marce, ya tenés un usuario de Facebook Developer habilitado. No creé ni tengo el ID porque no sé como hacerlo pero tenés todo listo para hacerlo.
user: marianomendezdiez@gmail.com pass: developer2015
abrazo
Ok, gracias.
Yendo a lo anterior, para poder hacer todos esos analisis primero tengo que hacer que la info se cargue en una base de datos, si no va a ser imposible procesarlo.
Exacto. Cargalo en el servidor que dijimos, el de Benteveo.
Leandro Braier Producción Audiovisual & Social Media Benteveo Producciones http://benteveo.tv Móvil 1158717399
On Thu, Jul 23, 2015 at 10:36 PM, mkreyness notifications@github.com wrote:
Yendo a lo anterior, para poder hacer todos esos analisis primero tengo que hacer que la info se cargue en una base de datos, si no va a ser imposible procesarlo.
— Reply to this email directly or view it on GitHub https://github.com/LeandroBraier/DataScience/issues/1#issuecomment-124288726 .
Probar algo concreto para esta campaña de Paty Chile que viene . De las siguientes páginas de marcas:
https://www.facebook.com/lacrianza/ https://www.facebook.com/VecinasSanJorge
Qué podemos bajar de esta marca en Facebook:
Por ej:
Comentarios totales Publicaciones con más de 50 likes
Por otro lado el hashtag en Instagram y Twitter
lacrianza