opendatasicilia / tansignari

"T'ansignari e t'appeddiri"
http://tansignari.opendatasicilia.it
Creative Commons Attribution 4.0 International
18 stars 10 forks source link

come capire l'URL di origine dei video VIMEO in una pagina web #149

Open cirospat opened 4 years ago

cirospat commented 4 years ago

salve, come faccio a capire l'url di origine dei video VIMEO in questa pagina: https://sites.google.com/regione.veneto.it/progetto-vela/formazione/lavorare-smart

aborruso commented 4 years ago

Caro @cirospat ma tu che test hai fatto prima di chiedere qui??

Per molti siti, la modalità di base è una:

Se cerchi "vimeo", trovi quello che cerchi (vedi immagine).

image

È poco comprensibile la struttura, ma l'URL si vede ed è copiabile. Ad esempio:

https://www.google.com/url?q=https%3A%2F%2Fplayer.vimeo.com%2Fvideo%2F347700231&sa=D&sntz=1&usg=AFQjCNHgiHEnE1IQ3IPvx143oW_AvUUF2g

È un po' più leggibile se lo fai dalla console di sviluppo del browser:

In questo modo è più leggibile e si vede la struttura, è un <div> che contiene un <iframe>

image

Sottolineo la struttura, perché sul codice di una pagina HTML si possono fare query sfruttando la struttura: sono le query XPATH. Ci sono un milione di tutorial online e centinaia di tool per eseguirle.

Puoi partire sempre dalla console di un browser (F12). Dicevamo che è un <div> che contiene un <iframe>, che in XPATH è //div[iframe]. Se lo usi per cercare, potrai saltare direttamente a quello che ti interessa.

image

Puoi fare ancora di più usando la console del browser, e incollandoci dentro $x("//div[iframe]/@data-url") e pigiando invio. Estrarrai la proprietà data-url del div, che è quello che cerchi.

image

Una pagina di riferimento bella, è questa https://librarycarpentry.org/lc-webscraping/02-xpath/index.html

pigreco commented 4 years ago

@cirospat usando la shell di linux basterebbe scrivere questo comando per avere subito un file csv con i link

curl "https://sites.google.com/regione.veneto.it/progetto-vela/formazione/lavorare-smart" | scrape -be "//div[iframe]"  | xq -r '.html.body.div[]."@data-url"' >vivaAndy.csv

(comando rubato a @aborruso ) :-)

cirospat commented 4 years ago

Grazie Si praticamente sono andato di CTRL + U. Ma non riuscivo a scorgere i link di Vimeo. Da quanto leggo ora dovevo allargare la vista e cercare meglio Vimeo trovandolo in url "strani".

cirospat commented 4 years ago

@aborruso mi sono letto con attenzione i due percorsi che hai illustrato. La prima è più semplice e fa raggiungere l'obiettivo, che è la cosa che conta. La seconda fa raggiungere l'obiettivo e fa conoscere qualcosa che può tornare utile in futuro in situazioni analoghe a queste.

tu che test hai fatto prima di chiedere?

Avevo aperto (con CTRL + U) il codice della pagina web. Ma mi ero perso perché non trovavo l'URL in questa maniera: https://player.vimeo.com/video/347700231.

@pigreco non conosco la shell di Linux. Un giorno ci arriverò. Grazie.

Ringrazio molto entrambi.

pigreco commented 4 years ago

@cirospat solo per farti capire le potenzialità della riga di comando, ho registrato un minuto di video

https://www.loom.com/share/50c7264d37294f95b133ff1f3e9870d3

saluti

cirospat commented 4 years ago

@cirospat solo per farti capire le potenzialità della riga di comando, ho registrato un minuto di video

grazie tantissimo @pigreco me lo studio, tanto lo so che prima o poi atterro su visidata ;)

pigreco commented 4 years ago

@aborruso la ricetta è stata fatta?? se si dove la trovo??

aborruso commented 4 years ago

Ho chiuso, perché Ciro ha usato soltanto il "trova" nel codice.

Non mi sembra da ricetta

pigreco commented 4 years ago

@aborruso @cirospat quando ha tempo e voglia mette in bella quello che hai scritto tu.

Altrimenti lo faccio io.

È un peccato perdere tutto questo.

cirospat commented 4 years ago

buongiorno prometto di scrivere ricetta copiando quanto mi avete condiviso. Grazie

Ciro Spataro cirospat@gmail.com cirospat.readthedocs.io

Il giorno dom 17 mag 2020 alle ore 20:49 Salvatore Fiandaca < notifications@github.com> ha scritto:

Reopened #149 https://github.com/opendatasicilia/tansignari/issues/149.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/opendatasicilia/tansignari/issues/149#event-3344826647, or unsubscribe https://github.com/notifications/unsubscribe-auth/AA4VLVMDVO7Q2LQAESSX2LLRSAWSBANCNFSM4NCR6MCQ .

cirospat commented 4 years ago

ho cominciato a scrivere la ricetta: https://github.com/opendatasicilia/tansignari-md/blob/master/content/it/ricette/riga_comando/Capire_URL_video_in_una_pagina_web.md