Gestione Archive.org - Githubissues

iltempe commented 8 years ago

Va implementato un meccanismo periodico che archivi su https://archive.org/index.php le foto ed i video che periodicamente vengono archiviati nelle folder utenti GDRIVE https://drive.google.com/drive/u/0/folders/0B3_1qNRcoeWseTlOejNUaFlpMjQ

Le foto e i video dovranno essere cancellate da GDRIVE e inserite in una COLLEZIONE su Archive

mfortini commented 8 years ago

Segnalo questo tool che dovrebbe aiutare molto https://internetarchive.readthedocs.io/en/latest/

Il dom 28 ago 2016, 23:23 Iltempe notifications@github.com ha scritto:

Va implementato un meccanismo periodico che archivi su https://archive.org/index.php le foto ed i video che periodicamente vengono archiviati nelle folder utenti GDRIVE https://drive.google.com/drive/u/0/folders/0B3_1qNRcoeWseTlOejNUaFlpMjQ

Le foto e i video dovranno essere cancellate da GDRIVE e inserite in una COLLEZIONE su Archive

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/emergenzeHack/terremotocentro/issues/86, or mute the thread https://github.com/notifications/unsubscribe-auth/ABDcHmDK2GcnwA7zoYajHgMiP7r0cFevks5qkfxFgaJpZM4JvBZs .

ghost commented 8 years ago

Ciao ho rispolverato un piccolo script che ho riadattato per l'esigenza. Questo richiede gdrive (apt-get install gdrive) e ia (sudo pip install internetarchive). Ovviamente gdrive e internetarchive vanno prima configurati per fare autenticazione.

#!/bin/bash
gdrive download 0B3_1qNRcoeWseTlOejNUaFlpMjQ --recursive --force
ls -R1 TerremotoCentroItalia_foto |
  while read l; do case $l in *:) d=${l%:};; "") d=;; *)
        ia upload terremotocentroinfo "$d/$l" --retries 10
esac; done

Risultato è una cosa del genere: https://archive.org/details/terremotocentroitaliainfo Se va bene posso anche metterla in cronjob su una macchina virtuale personale (ho parecchia banda in uscita). Se ci sono delle macchine "ufficiali" super carrozzate ancora meglio :-)

mfortini commented 8 years ago

Molto bello @tailot ! Prima di farlo andare live aggiungerei solo alcuni dettagli come proposta mia:

nomi file: usiamo sha256.ext perché altrimenti rischiamo conflitti di nome
vecchio nome file: si potrebbe encodare nei dati exif nelle jpeg (prima di calcolare sha256, nota per me)
potremmo passare i file per qualche ottimizzatore come trimage in modo da averli già più piccoli possibile

ghost commented 8 years ago

@mfortini ho modificato lo script. Questo fa:

il download
rinomina il file con basename in sha256
viene lanciata l'ottimizzazione (jpegoptim e optipng al posto di trimage che richiede il server X attivo)
valorizza l'exif UserComment con il nome del file originale
e infine fa l'upload su archive.org, l'ho appena rilanciato l'esito lo vedi sempre all'url https://archive.org/details/terremotocentroitaliainfo

#!/bin/bash
gdrive download 0B3_1qNRcoeWseTlOejNUaFlpMjQ --recursive --force
ls -R1 TerremotoCentroItalia_foto |
  while read l; do case $l in *:) d=${l%:};; "") d=;; *)
        FILE=$(echo "$d/$l")
        FILE_CLEAN=$(echo $FILE | tr "'" "_" | tr " " "_" | tr "," "_" | sed -r 's|\.|_|g; s|_([^_]*)$|.\1|')

        if [[ ! -d "$FILE"  &&  $FILE == *"."*  ]]; then
                FILE_BASE256=$(sha256sum "$FILE")
                FILE_BASE256_EXT=$(echo $FILE_BASE256 | awk '{print $1}')".${FILE_CLEAN#*.}"
                mv "$FILE" "$d/$FILE_BASE256_EXT"
                jpegoptim "$d/$FILE_BASE256_EXT"
                optipng "$d/$FILE_BASE256_EXT"
                exiftool -m -UserComment="$FILE" "$d/$FILE_BASE256_EXT"
                ia upload terremotocentroinfo "$d/$FILE_BASE256_EXT" --retries 10
        fi
esac; done

ghost commented 8 years ago

Allego sotto l'elenco dei metadati che possiamo modificare alla collezione. screencapture-archive-org-editxml-terremotocentroitaliainfo-1472466435046

drizzt commented 8 years ago

io consiglio di mantenere il nome del fine inalterato con al limite un hash (CRC32 o SHA256) preposto fra [], per esempio: danni [EDB88320].jpg così uno che scarica lo zip completo da archive.org o comunque sa più o meno cosa troverà nell'immagine senza doverle scaricare e guardare tutte o senza dover analizzare tutti gli exif a mano. per evitare problemi con accentate o caratteri speciaili si potrebbe anche decidere di normalizzare il nome file

lorenzoperone commented 8 years ago

Ciao, alcune delle foto che sono ora su Archive sono duplicate, è una prova? Secondo me senza una catalogazione sono poco fruibili, andrebbero prima taggate con qualche tag anche generale (edifici, persone, campi, ecc.)

mfortini commented 8 years ago

Sono d'accordo che siano poco fruibili così come sono.

Ti dico come la vedo io:

archive è un semplice storage. L'obiettivo è caricarci tutte le foto che possiamo prendendole da telegram e da gdrive. I nomi di file devono essere univoci per non rischiare duplicati.
i metadati come la catalogazione vanno fatti in un luogo separato (db, anche su gsheet se fa comdo), o nei metadati di archive, o nei dati exif

L'obiettivo è quello di poter zoomare le foto su una mappa e filtrarle per data, oppure vedere una lista di foto in una certa zona ordinate per data e luogo, quindi tutto mediato da software di visualizzazione.

Non vedo realizzabile l'obiettivo di usare queste foto come se fosse una cartella su un hdd, abbiamo potenzialmente migliaia di foto e vogliamo tirar fuori il massimo da quello che abbiamo.

Il 29/08/2016 13:36, lorenzo perone ha scritto:

Ciao, alcune delle foto che sono ora su Archive sono duplicate, è una prova? Secondo me senza una catalogazione sono poco fruibili, andrebbero prima taggate con qualche tag anche generale (edifici, persone, campi, ecc.)

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/emergenzeHack/terremotocentro/issues/86#issuecomment-243100440, or mute the thread https://github.com/notifications/unsubscribe-auth/ABDcHhM1J_pVqb5EGL_1myQwDpfMjsRdks5qksRWgaJpZM4JvBZs.

ghost commented 8 years ago

@lorenzoperone si era una prova :-)

lorenzoperone commented 8 years ago

Ciao Matteo, se decidiamo in lista i TAG io posso taggarle nei dati exif (devo farlo in locale). Ciao. l.

Lorenzo Perone twitter: @lorenzo_perone https://twitter.com/lorenzo_perone photoblog: http://immagini.me

Il giorno 29 agosto 2016 15:58, Matteo Fortini notifications@github.com ha scritto:

Sono d'accordo che siano poco fruibili così come sono.

Ti dico come la vedo io:

archive è un semplice storage. L'obiettivo è caricarci tutte le foto che possiamo prendendole da telegram e da gdrive. I nomi di file devono essere univoci per non rischiare duplicati.

i metadati come la catalogazione vanno fatti in un luogo separato (db, anche su gsheet se fa comdo), o nei metadati di archive, o nei dati exif

L'obiettivo è quello di poter zoomare le foto su una mappa e filtrarle per data, oppure vedere una lista di foto in una certa zona ordinate per data e luogo, quindi tutto mediato da software di visualizzazione.

Non vedo realizzabile l'obiettivo di usare queste foto come se fosse una cartella su un hdd, abbiamo potenzialmente migliaia di foto e vogliamo tirar fuori il massimo da quello che abbiamo.

Il 29/08/2016 13:36, lorenzo perone ha scritto:

Ciao, alcune delle foto che sono ora su Archive sono duplicate, è una prova? Secondo me senza una catalogazione sono poco fruibili, andrebbero prima taggate con qualche tag anche generale (edifici, persone, campi, ecc.)

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/emergenzeHack/terremotocentro/ issues/86#issuecomment-243100440, or mute the thread https://github.com/notifications/unsubscribe-auth/ABDcHhM1J_pVqb5EGL_ 1myQwDpfMjsRdks5qksRWgaJpZM4JvBZs.

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/emergenzeHack/terremotocentro/issues/86#issuecomment-243131515, or mute the thread https://github.com/notifications/unsubscribe-auth/AE9rP0jlooBgcJgV7frpXOVnI9gmIPuUks5qkuV7gaJpZM4JvBZs .

mfortini commented 8 years ago

Grazie per aver caricato lo script. Per adesso sono in standby su questo tema, ma appena avete qualcosa che secondo voi gira bene ditemelo che troviamo dove farlo girare

drizzt commented 8 years ago

Questo gestisce qualsiasi filename (basta che non contengano new line nel nome file) https://github.com/emergenzeHack/terremotocentro/pull/101

iltempe commented 8 years ago

segnalo che da oggi le foto verranno messe qui per cui occorre usare API FLICKR. https://www.flickr.com/groups/3003557@N20/

iltempe commented 8 years ago

Segnalo che ho creato un account https://archive.org/details/@emergenzehack dentro il quale metterei una collezione terremotocentroitalia. Attualmente lo stato è: serve uno script che faccia backup da una cartella gdrive di documetazione nella collezione archive.

iltempe commented 8 years ago

Per chi si volesse cimentare suggerisco questa soluzione. https://github.com/kngenie/ias3upload

mfortini commented 8 years ago

Penso che per ogni doc in archive andrebbe creato issue apposito su un repo di discussione. Gli issue che non sono interessanti vengono chiusi, gli altri si taggano con label che possono aiutare la catalogazione, e si commentano. Volendo, se può essere utile, possiamo pensare di aggiungere metadati in yaml tipo importo o ditta appaltatrice etc. Potrebbe venire una knowledge base non indifferente. Alternativamente, archive ha già i metadati e si può lavorare direttamente lì, però vorrei essere sicuro che mantenesse la storia , siccome chi arriva a metà dovrebbe vedere sia il risultato che la storia.

PS il top sarebbe un wiki dedicato al monitoraggio...

iltempe commented 8 years ago

@mfortini va fatto il wiki sul monitoraggio. è la cosa migliore.

mfortini commented 8 years ago

Dopo aver insegnato github, insegniamo la potenza di espressività di un wiki. Ci sto, verrà una cosa grandissima.

emergenzeHack / terremotocentro

Gestione Archive.org #86