LeandroBraier / DataScience

Proyectos de Data Science en Benteveo
0 stars 0 forks source link

Chile Te Quiero Project #1

Open LeandroBraier opened 9 years ago

LeandroBraier commented 9 years ago

Probar algo concreto para esta campaña de Paty Chile que viene . De las siguientes páginas de marcas:

https://www.facebook.com/lacrianza/ https://www.facebook.com/VecinasSanJorge

Qué podemos bajar de esta marca en Facebook:

Por ej:

Comentarios totales Publicaciones con más de 50 likes

Por otro lado el hashtag en Instagram y Twitter

lacrianza

LeandroBraier commented 9 years ago

Marce, pudiste probar algo de esto?

Más que hashtags decidimos traer keywords, por que los hashtags son muy del momento y es muy difícil encontrar la info. Las keywords para la primera prueba son:

"asado"

"hamburguesa"

"la paty"

"una paty"

Podés delimitar si son de Chile o no los tweets por ejemplo?

mkreyness commented 9 years ago

Como la idea (de MS) era hacerlo sin APIs, empecé desarrollando un scraper para lo de Tweeter, tengo bastante idea de como sacar los datos, pero todavia no llegue a armar una base de datos. La idea es que en la base de datos diga keyword, la fuente de donde se tomo (tweeter/instagram/facebook/etc.) y todos los datos que se puedan extraer sobre fecha, el que posteó (incluyendo algun tipo de locacion fisica), y obviamente el contenido (texto, fotos, etc asociados). Gran parte de esto que hice seguramente se va a poder aplicar a Instagram, lo que no creo que se pueda acceder a lo de Facebook sin API.

LeandroBraier commented 9 years ago

Genial MK! Y en qué te puedo ayudar con eso de la API de Facebook? Te averiguo algo?

Creo que hay que crear una app de facebook específica no?

mkreyness commented 9 years ago

El problema con usar el API de facebook es que nos van a terminar bloqueando. SI tenes algun usuario trucho (para no comprometer el mio ya que ahi tenemos andando las app de klaukol, danica, etc.) fijate de crear una app y pasarme los datos de APP ID y tokens que te aparezcan, con eso vamos ganando algo de tiempo.

LeandroBraier commented 9 years ago

Marce, con esto de Twitter e Instagram, a qué hora podremos tener una primera bajada de datos? Aunque sea en RAW?

mkreyness commented 9 years ago

Instagram ni empece a mirar. De Twitter te puedo pasar raw pero es una estructura, no algo que puedas mirar con excel. Te mando en un rato y si queres lo formateamos un poco mejor.

LeandroBraier commented 9 years ago

Dale, perfecto. Gracias!

Leandro Braier Producción Audiovisual & Social Media Benteveo Producciones http://benteveo.tv Móvil 1158717399

2015-07-23 14:55 GMT-03:00 mkreyness notifications@github.com:

Instagram ni empece a mirar. De Twitter te puedo pasar raw pero es una estructura, no algo que puedas mirar con excel. Te mando en un rato y si queres lo formateamos un poco mejor.

— Reply to this email directly or view it on GitHub https://github.com/LeandroBraier/DataScience/issues/1#issuecomment-124182699 .

mkreyness commented 9 years ago

Los resultados que obtengo filtrando por keyword + ubicacion del que postea realmente son minimos. Si pongo "chile" como una segunda keyword esta mal porque la gente no tiene por que escribir Chile en el texto. O sea, busco por keyword y despues refiltro usuarios segun su location (y no todos lo tienen, o tienen la ciudad sin el pais). Entonces la probabilidad de que en la pagina de tweets que me trae para el keyword (los mas recientes) que justo haya un chileno es baja. De hecho me vienen 0, con "Argentina" me viene 1. Obviamente con hashtag "lacrianza" me vienen todos de chile.

mkreyness commented 9 years ago

Ah ! Encontre una forma de especificarle "near" un lugar en la busqueda en Twitter. Si pongo "Santiago de Chile" anda bastante mejor.

mkreyness commented 9 years ago

Nueva idea para poder levantar mas resultados: me fijo la fecha del twit mas viejo que encuentro y vuelvo a lanzarlo con esa fecha como limite maximo. Algunos se van a duplicar, pero es mejor eso que perder una parte del dia.

LeandroBraier commented 9 years ago

Me parece excelente MK! Muy bueno.

Fijate si podés llegar así hasta la independencia del año pasado en estas 4 búsquedas y veamos total de tweets de cada keyword y palabras más repetidas en cada una, más allá de la keyword, se puede?

Leandro Braier Producción Audiovisual & Social Media Benteveo Producciones http://benteveo.tv Móvil 1158717399

2015-07-23 19:32 GMT-03:00 mkreyness notifications@github.com:

Nueva idea para poder levantar mas resultados: me fijo la fecha del twit mas viejo que encuentro y vuelvo a lanzarlo con esa fecha como limite maximo. Algunos se van a duplicar, pero es mejor eso que perder una parte del dia.

— Reply to this email directly or view it on GitHub https://github.com/LeandroBraier/DataScience/issues/1#issuecomment-124255973 .

mkreyness commented 9 years ago

Ok pero "Paty" y "La Paty" son de cualquier otra cosa, ninguna parece ser real. Antes de contar habria que filtrar mucho. Cada tweet tiene hashtags, eso es lo que queres contar o las palabras sueltas dentro del tweet ? Puede haber montones de palabras irrelevantes, pero muy repetidas.

LeandroBraier commented 9 years ago

Claro, los hashtags más usados dentro de esa nube de tweets por ser interesante.

mkreyness commented 9 years ago

Pero mira que no estoy BUSCANDO por hashtag sino por search en los tweets, al menos eso entendi que habia que hacer cuando me dijiste keywords en vez de hashtag.

LeandroBraier commented 9 years ago

Claro. Y hacés bien.

Yo lo que te pido tiene que ver con "cómo ordenar ese universo de datos que ya recolectaste". No solo tener una lista de tweets sino un conteo por cada grupo de tweets correspondiente a cada keyword:

"cantidad de tweets" "palabras significativas (no articulos como la, de, etc) más mencionadas" "hashtags más mencionados" "horarios con mayor cantidad de tweets" etc

Si hay suficiente cantidad de info podríamos subdividr estos 4 análisis por mes desde agosto 2014 hasta ahora ponele. Se puede hacer eso?

LeandroBraier commented 9 years ago

Marce, ya tenés un usuario de Facebook Developer habilitado. No creé ni tengo el ID porque no sé como hacerlo pero tenés todo listo para hacerlo.

user: marianomendezdiez@gmail.com pass: developer2015

abrazo

mkreyness commented 9 years ago

Ok, gracias.

mkreyness commented 9 years ago

Yendo a lo anterior, para poder hacer todos esos analisis primero tengo que hacer que la info se cargue en una base de datos, si no va a ser imposible procesarlo.

LeandroBraier commented 9 years ago

Exacto. Cargalo en el servidor que dijimos, el de Benteveo.

Leandro Braier Producción Audiovisual & Social Media Benteveo Producciones http://benteveo.tv Móvil 1158717399

On Thu, Jul 23, 2015 at 10:36 PM, mkreyness notifications@github.com wrote:

Yendo a lo anterior, para poder hacer todos esos analisis primero tengo que hacer que la info se cargue en una base de datos, si no va a ser imposible procesarlo.

— Reply to this email directly or view it on GitHub https://github.com/LeandroBraier/DataScience/issues/1#issuecomment-124288726 .