entrenar con imágenes 1-8 y 10, y probar con imagen 9
etc.
me parece que conviene más hacerlo con archivos test.in (ver src/scripts/propios/crearTest.sh) (que particionen un train.csv que tiene todas las imágenes de todas las personas en orden, que se puede generar con el armador de csv que hizo michelle), que hacerlo con pares de CSVs train/test. porque con estos últimos los parámetros k-vecinos y alfa-dimensiones están fijos (no podemos experimentar con distintos parámetros tan fácilmente), en cambio los archivos .in incluyen los valores de k-vecinos, alfa-dimensiones y K-pliegues, que se quiere usar.
creo que se pueden hacer todas las particiones en un solo archivo test.in:
la primera línea tiene los parámetros: la ruta a train.csv, los valores de k, alfa, K...
y las restantes líneas dicen cómo se particiona train.csv en cada experimento:
en cada línea hay un 0 o un 1 por imagen en train.csv: 0 indica usar como test y 1 indica usar como train
por ejemplo: si train.csv tiene 3 imágenes, en la segunda línea del test.in podría decir:
1 1 0
y querría decir que las primeras dos imágenes se usan para entrenar y la tercera para probar
la tercera línea podría decir:
1 0 1
y querría decir que haga una segunda corrida usando la primera y la tercera imagen para entrenar, y la segunda imagen para probar
como son 2 particiones distintas, en la primera línea hay que indicar que K=2 (que el programa corra dos veces, una con cada partición)
(cualquier duda, pregunten)
pero habría que tener un archivo .in por combinación de parámetros k-vecinos, alfa-dimensiones y K-pliegues (todos con las mismas particiones) (es decir, iguales desde la segunda línea en adelante)
para las personas 1 a 41:
me parece que conviene más hacerlo con archivos test.in (ver src/scripts/propios/crearTest.sh) (que particionen un train.csv que tiene todas las imágenes de todas las personas en orden, que se puede generar con el armador de csv que hizo michelle), que hacerlo con pares de CSVs train/test. porque con estos últimos los parámetros k-vecinos y alfa-dimensiones están fijos (no podemos experimentar con distintos parámetros tan fácilmente), en cambio los archivos .in incluyen los valores de k-vecinos, alfa-dimensiones y K-pliegues, que se quiere usar.
creo que se pueden hacer todas las particiones en un solo archivo test.in: la primera línea tiene los parámetros: la ruta a train.csv, los valores de k, alfa, K...
y las restantes líneas dicen cómo se particiona train.csv en cada experimento: en cada línea hay un 0 o un 1 por imagen en train.csv: 0 indica usar como test y 1 indica usar como train
por ejemplo: si train.csv tiene 3 imágenes, en la segunda línea del test.in podría decir: 1 1 0 y querría decir que las primeras dos imágenes se usan para entrenar y la tercera para probar
la tercera línea podría decir: 1 0 1 y querría decir que haga una segunda corrida usando la primera y la tercera imagen para entrenar, y la segunda imagen para probar
como son 2 particiones distintas, en la primera línea hay que indicar que K=2 (que el programa corra dos veces, una con cada partición)
(cualquier duda, pregunten)
pero habría que tener un archivo .in por combinación de parámetros k-vecinos, alfa-dimensiones y K-pliegues (todos con las mismas particiones) (es decir, iguales desde la segunda línea en adelante)