Consultar si eliminar las últimas tres columnas, porque en todas la mayoria de las filas son nulas y no seria propio sustituir por mediana o moda xq se falsearia muho y ademas dos columnas son de informacion.
En el archvio que se da en el Teams pone que deberia de haber mas columnas pero en el csv no las hay y hay otras que no estan anotadas en el Teams.
En cuánto a las fechas, separar por dia y mes la columna creada date_dd-mm , nombres de las columnas en minúscula e inglés.
En cuánto a industry_type lo he corregido xq esq hay un monton de palabras mal escritas y cosas q significan lo mismo pero x una palabra pues no salen iguales entonces he hecho eso. Comprobar si las correcciones estan bn agrupadas. Mira a ver si me he dejado algo en lo de las correcciones que pueda agruapr bn.
En cuanto a la columna contries se ha dividido por continentes, luego despues hacer get_dummies para que se divida en 6 columnas diferentes que pona 0 si no es d ese continente y 1 si lo es. Hacemos esto xq en otros csvs hay ataques que vienen de diferentes paises entonces yo diria que mejor hacer esto. Seguir poniendo en la lista dada los paises para q los identifique correctamente
Subctegorias hay muchas, mirar si agrupar (xq esq ya estan agrupadas en indsutry type) o si borrar esta columna. ESTA COLUMNA TIENE LOS VALORES DE INDSUTRY TYPE, es decir, industry type es la categoria principal y en subcategory pone algunos nombre que ya estan en industry_type. LO QUE YO DIRIA D HACER es lo mismo de los paises, hacer columnas distintas diciendo con 1 si son de ese subtipo y 0 sino lo malo de esto esq hay un total de aprox 30 industry_types x tanto habria muchísimas columnas nuevas. PREGUNTAR A RUBEN.
En las gráficas poner todo en ingles, tipo el titulo etc q sino lueog lo tenemos q cambiar.
POR ÚLTIMO EN LAS CONTUNUAS DETECTA AL ATAQUE DESCRIPCIÓN Y ATAQUE DETALLES, las eliminamos o no? yo diria q no pero basicamente para hacer las relaciones, SUPONIENDO QUE TENGAN, y para el modelaje las quitas y ya.
HACKMAGEDDON
No da ID este csv pero en Teams dice que hay, ¿generamos uno, el propio que da cunado haces pandas?
descripton, author, target, attack se dejan tienen realcion con la de serra (CYBER nsq) ---- decir a serra que en el caso de attack que haga el ordinal encoder como tu y lo comparais a ver si teneis los mismos únicos y tal.
la columna date reported, dividir en columna de DIA HORA Y YEAR (copia el codigo de TIFASE y ya) ---- ponlo justo antes de Limpieza de datos.
en caso de la columna Target class preguntar a Ruben si es apropiado lo de apgrupar lso objetvios en categorias generales
En la columna countries hay unas 1300 que pone >1 mirar como identificar al pais al que pertenecen y como claisifcar xq eliminar no es opcion ya que solo hay 4500 filas aprox. termianr de rellenar continentes en la lista.
En los lins limpiar con el de Nacho, sin poner a la categoria que pertenecen. ESO LO HACES DETRÁS DE LO DE LOS DATES, ES DECIR JUSTO ANTES DE LIMPIEZA DE DATOS.
los textacos de aalsiis dejalos xq los tenemos q cambiar xq los valores van variando a medida q hacemos cambios pero dejalos apra usarlos como modelo para cuando ya este todo terminado. Luego tmb no recomiendo poner numeros en el texto xq van a ir cambiando pon como las conlcusiones q tienes mas generales y asi no hace falta modificar y ya. MIRA LA DE LAS VARIBALES CATEGORICAS PARA Q TE HAGAS UNA IDEA (modifica esa si qres pero vamos q conclusiones q sean de ese estilo)
TIFASE
fechas
, separar por dia y mes la columna creada date_dd-mm , nombres de las columnas en minúscula e inglés.industry_type
lo he corregido xq esq hay un monton de palabras mal escritas y cosas q significan lo mismo pero x una palabra pues no salen iguales entonces he hecho eso. Comprobar si las correcciones estan bn agrupadas. Mira a ver si me he dejado algo en lo de las correcciones que pueda agruapr bn.contries
se ha dividido por continentes, luego despues hacer get_dummies para que se divida en 6 columnas diferentes que pona 0 si no es d ese continente y 1 si lo es. Hacemos esto xq en otros csvs hay ataques que vienen de diferentes paises entonces yo diria que mejor hacer esto. Seguir poniendo en la lista dada los paises para q los identifique correctamentePOR ÚLTIMO EN LAS CONTUNUAS DETECTA AL ATAQUE DESCRIPCIÓN Y ATAQUE DETALLES, las eliminamos o no? yo diria q no pero basicamente para hacer las relaciones, SUPONIENDO QUE TENGAN, y para el modelaje las quitas y ya.
HACKMAGEDDON
No da ID este csv pero en Teams dice que hay, ¿generamos uno, el propio que da cunado haces pandas?
descripton, author, target, attack se dejan tienen realcion con la de serra (CYBER nsq) ---- decir a serra que en el caso de attack que haga el ordinal encoder como tu y lo comparais a ver si teneis los mismos únicos y tal.
la columna date reported, dividir en columna de DIA HORA Y YEAR (copia el codigo de TIFASE y ya) ---- ponlo justo antes de Limpieza de datos.
en caso de la columna Target class preguntar a Ruben si es apropiado lo de apgrupar lso objetvios en categorias generales
En la columna countries hay unas 1300 que pone >1 mirar como identificar al pais al que pertenecen y como claisifcar xq eliminar no es opcion ya que solo hay 4500 filas aprox. termianr de rellenar continentes en la lista.
En los lins limpiar con el de Nacho, sin poner a la categoria que pertenecen. ESO LO HACES DETRÁS DE LO DE LOS DATES, ES DECIR JUSTO ANTES DE LIMPIEZA DE DATOS.
los textacos de aalsiis dejalos xq los tenemos q cambiar xq los valores van variando a medida q hacemos cambios pero dejalos apra usarlos como modelo para cuando ya este todo terminado. Luego tmb no recomiendo poner numeros en el texto xq van a ir cambiando pon como las conlcusiones q tienes mas generales y asi no hace falta modificar y ya. MIRA LA DE LAS VARIBALES CATEGORICAS PARA Q TE HAGAS UNA IDEA (modifica esa si qres pero vamos q conclusiones q sean de ese estilo)