Closed nikolajcandellari closed 6 years ago
<h2>ADLEŠIČI</h2>
--
| <div>
| <span class='label'>Kategorija:</span>I. kategorije, prostovoljna GE<br/><br/><span class='label'>Lokacija:</span>ADLEŠIČI 13 B, 8341 ADLEŠIČI<br /><span class='label'>Telefon:</span>031305835<br /><span class='label'>E-mail:</span><a href='mailto:pgdadlesici@gmail.com'>pgdadlesici@gmail.com</a><br /><span class='label'>Web:</span><a target='_blank' href='http://www.pgdadlesici.si'>http://www.pgdadlesici.si</a><br />
| </div>
| </div>
Nekaj takega bi šlo:
link <- "http://www.gasilec.net/belokranjska-regija"
drustva.html <- html_session(link) %>% read_html() %>%
html_nodes(xpath="//div[contains(@class, 'drustvo')]")
drustva <- data.frame(drustvo = drustva.html %>% html_nodes(xpath="./h2") %>% html_text(),
naslov = drustva.html %>% html_nodes(xpath="./div/text()[3]") %>% html_text(),
stringsAsFactors = FALSE)
V notaciji xpath
lahko torej uporabiš text()
, da dobiš seznam delov besedila neposredno pod značko - želeni del potem dobiš pod ustreznim indeksom. Na podoben način lahko seveda pridobiš še ostale podatke s strani.
Mimogrede: opažam, da ima zadnje društvo v vsaki zvezi pod class
vrednost drustvo last
, tako da sem posodobil zgornjo kodo tako, da išče vse značke, katerih class
vsebuje drustvo
.
Zanima me če obstaja kakšen lahek način, da bi prišel do vsebine na spletni strani (stran je v html obliki) katera pa ni v nobenem "tag-u".
iz strani bi rad pridobil podatek o naslovu gasilskega društva pa imam pri tem problem saj ravno del besedila ki ga iščem ni v nobenem "tag-u". primer html zapisa:
ADLEŠIČI
-- |
Lokacija:ADLEŠIČI 13 B, 8341 ADLEŠIČI
Telefon:031305835
E-mail:pgdadlesici@gmail.com
Web:http://www.pgdadlesici.si
|
spletna stran: http://www.gasilec.net/belokranjska-regija