IIC2433-2017-2 / T02

Repositorio para realizar consultas sobre la tarea 1
1 stars 0 forks source link

Itemset frecuentes #9

Closed mf222 closed 6 years ago

mf222 commented 6 years ago

Hola, sobre los itemsets frecuentes, se considera como itemset frecuente a todos los caminos de nodos desde el nodo hasta el nodo null? Osea si tengo algo asi:

     null
   /  |    \
A:5   B:1   C:1
|      \     \ 
B:2    F:2     G:1
|        \
D:1       D:1

Entonces para D los caminos son DBA y DFB, entonces estos son los itemset frecuentes a pesar de que solo se llegue 1 vez a ellos? o dependerá del soporte, osea si el soporte mínimo es 2, entonces no serían frecuentes?

Y aprovechando la misma duda, en este mismo ejemplo, una regla de asociación sería DB dado que se repite para todos los caminos de D? si no es así, como se determinaría una regla de asociación?

jgmontoya commented 6 years ago

Hola!

En tu ejemplo la F no debería poder tener contador 2 porque el contador debiera ser monótono decreciente en la profundidad del árbol según entiendo. En este caso no importa mucho así que asumiré que es un 1 nomás.

Según me parece, en ese caso tendrías DBA y DFB pero también DA, DB y DF. Luego depende del soporte mínimo que tengas, entonces como dices, si el soporte mínimo es 2 solo te quedarás con DB.

Luego de que tienes los itemsets frecuentes las reglas de asociación se ven como las diferentes posibilidades dado un itemset. Por ejemplo si tienes el itemset {a,b,c} esto generará las siguientes reglas:

Saludos!

Si entendí algo mal espero que algún ayudante (o Belén) me corrija :smile:

Hernan4444 commented 6 years ago

Luego de que tienes los itemsets frecuentes las reglas de asociación se ven como las diferentes posibilidades dado un itemset. Por ejemplo si tienes el itemset {a,b,c} esto generará las siguientes reglas:

  • {a} -> {b, c}
  • {b} -> {a, c}
  • {c} -> {a,b}
  • {a,b} -> {c}
  • {a,c} -> {b}
  • {b,c} -> {a}

Complementando a lo que puso @jgmontoya, lo anterior son todas las reglas posibles pero algunas tendrán mayor o menor confianza que otras y antes de entregar la lista de reglas, debes filtrar por las que tengan mayor o igual confianza que la recibida como input.

Saludos!

mf222 commented 6 years ago

@jgmontoya te quedas con DB por la suma por nivel o porque el contador en B es mayor? El B que viene de null es B:2 en vez de 1. Entonces en tal caso cual sería el soporte para las combinaciones de D? Aun no me queda claro como seleccionas los itemset frecuentes.

Lo de las reglas me quedo claro, gracias a ambos 😄

NevadaStreets commented 6 years ago

Lo primero es que, tal como dijo @jgmontoya, no es posible de que F tenga un contador mayor a B en la misma rama. Esto es debido a que cada transacción la ordenas, cada item dentro de una transacción se ordena por la frecuencia del cada item en el dataset, de mayor a menor. Por lo que a medida que construyes el árbol, los contadores más altos quedan cerca de la raiz, y van decreciendo de forma monótona a medida que bajas por la rama. Lo segundo es que, te quedas con DB porque la cantidad de caminos que pasan por este itemset, cumple con el soporte mínimo que definiste . También podrías quedarte AB por ejemplo, ya que también lo cumple.