harpomaxx / graph-representation-learning

Graph Representation Learning
0 stars 0 forks source link

push Keras demo to repo #47

Closed lgmoyano closed 1 year ago

lgmoyano commented 1 year ago

@tatipar, me gustaría correr el demo de Keras que conecta ya con los datos de CTU-13, para mirarlo un poco.

Podrías por favor ponerlo en esta repo en el lugar que te parezca mejor? Supongo que code/python/keras-demo o algó así. Los datos de entrada entiendo que pesan demasiado para ponerlos en el repo. No sé si los estás tratando de alguna manera de antemano. En ese caso comentame cómo para ver si lo puedo hacer andar en mi máquina.

Gracias!

tatipar commented 1 year ago

Hola @lgmoyano

Recién subo el demo, perdón por la demora!!

Respecto a los datos, en este ejemplito en particular le paso cuatro archivos:

Más observaciones:

  1. La etiqueta que ponemos con el script 008, diferencia "botnet", "normal", "background" para distinguir lo que tenemos seguridad que es botnet y normal, de acuerdo a lo que dice CTU. Sin embargo, para comparar con BotChase (y en particular en el demo), todo lo que figura como background hay que tomarlo como "normal", así que la función para etiquetar se podría simplificar.
  2. En la branch tati-gnn, en el archivo code/bash/prueba_demo está explicado al principio lo que tuve que hacer para poder poner a andar el demo.
  3. El demo está en la branch tati-gnn, en code/python/keras_demo.
  4. Si querés, comprimo los datos de entrada y te los mando por mail, avisame.
lgmoyano commented 1 year ago

Genial @tatipar mil gracias :)

Según entendí, los scripts de bash leen los datos crudos de /rawdata/ctu-13/ y se van generando los datos de entrada (grafos, features, etc.). Entendí bien?

Si es así, cuánto pesa /rawdata/ctu-13/ zippeado?

tatipar commented 1 year ago

Hola @lgmoyano

Claro, hay que hacerle un preprocesamiento a los datos crudos. De todos modos, el @harpomaxx me recordó que habíamos decidido tomar los pkts como pesos, y en lo que yo te indiqué lo que se toman son los bytes.

Hay que hacer algo similar, para quedarse con el dato de los pkts, pero para eso primero hay que descargar los archivos "binetflow.2format" de cada captura en https://www.stratosphereips.org/datasets-ctu13

Para que no pierdas tiempo, te paso directamente los archivos ya procesados, cortesía del Harpo:

Yo no tengo el código del preprocesamiento con pkts, para seguirlo deberías mirar harpo-branch-pkts

lgmoyano commented 1 year ago

Genial, gracias a ambos, después les cuento cómo me fue :)