《基于 R 语言的自动化数据采集技术》读者讨论区
P298半结构化文档解析信息 #19

6 years ago

shangdawen

doc <- htmlParse(url,encoding='UTF-8')
Warning message:
XML content does not seem to be XML: '' 
names<-xpathSApply(rootNode,"//tbody/tr/td",xmlValue)     # /td:td层的内容xmlValue 


shangdawen



tmp<-getURL(url) Error in function (type, msg, asError = TRUE) : error:1407742E:SSL routines:SSL23_GET_SERVER_HELLO:tlsv1 alert protocol version

shangdawen
for(i in 1:length(z)){
coderLMN

P298 给出的是用 ftp 协议下载文件,你的代码是自己写的吗?


doc <- htmlParse(url,encoding='UTF-8')
Warning message:
XML content does not seem to be XML: 

这个是按照 html 网页解析的方式。


ftp <- ""
filelist <- getURL(ftp, dirlistonly = TRUE)
shangdawen


coderLMN

如果网页格式变成了 https,那么你的第二块代码应该是可以的:


我这里是正常的,如果你那里有上面那个报错,可以试试在 getURL(url)后面加上参数 ,ssl.verifypeer = FALSE

tmp<-getURL(url,ssl.verifypeer = FALSE)
shangdawen
Error in function (type, msg, asError = TRUE)  : 
  error:1407742E:SSL routines:SSL23_GET_SERVER_HELLO:tlsv1 alert protocol version


coderLMN

我用了 XML 和 RCurl 两个 library,不知道你用的是什么。如果实在不行,就用书里访问 https 网页的方法试试看。

shangdawen


xpathSApply(lianjie3,'/html/body/div[2]/div[2]/div[2]/div[1]/div[2]/div[2]/div/div[1]/div[1]/div/span[@class="tag tag1"]',xmlValue)
coderLMN

静态页面的结构如果存在一定规律的话, XPath 总是会有的,报错可能是因为你写的 XPath 不对。你可以一层一层地写,比如先把最外层的 '/html/body/div[2]' 写出来试试,看看取到的那个 div 是否是你要的,然后再加上下一层 div ,一步一步地缩小范围。

shangdawen

你好,我想爬网贷之家问题平台的数据,网址如下: 我的代码如下:

library("XML", lib.loc="~/R/win-library/3.4")
library("stringr", lib.loc="~/R/win-library/3.4")
library("RCurl", lib.loc="~/R/win-library/3.4")

header<-c("User-Agent"="Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv: ",
wenti_url<-getURL(wenti,.encoding = 'UTF-8')
wenti_parse<-htmlParse(wenti_url,encoding = 'UTF-8')


coderLMN

需要登陆网站的话,可以用 selenium 来解决,具体做法可以参考书中9.1.9节,不过书中推荐的组件 Rwebdriver 并不好用,我推荐用 RSelenium。你还可以参考这个讨论:

shangdawen


coderLMN


coderLMN

RSelenium 文档里 findElement 的调用和你这里的不一样,例如:

webElem <- remDr$findElement(using = 'css', "input[name='q']")    

webElem <- remDr$findElement(using = 'css', "[name='q']")

webElem <- remDr$findElement('css', "[class = 'gsfi lst-d-f']")      # CSS 的方法 

webElem <- remDr$findElement('xpath', "//input[@id = 'lst-ib']")    # XPath 的方法

webElem$sendKeysToElement(list("R Cran", "\uE007"))

你给出的 '//[@id="logusername"]' 是个 XPath,但前面声明的是 CSS,而且参数值貌似也和文档不一致。所以我怀疑是因为你前面的 'css selector' 不对,导致 findElement 的结果为 null,你可以试试把 'css selector' 改成 'xpath' 。

另外我还注意到你两个 XPath 开始的反斜杠 // 不一样,莫非有一个是中文状态下输入的?这有可能也需要检查一下。

we0530
filelist<-getURL(url,ssl.verifypeer = FALSE)
if(!file.exists("Data")) dir.create("Data")

# get list of files from ftp
filelist <- getURL(url, dirlistonly = TRUE )
filelist <- unlist(str_split(filelist,"\r\n"))
filelist <- filelist[!filelist==""]

谁能帮忙找一个可以替代上面的网址的网址,也是有关气象数据的,可以下载txt文件,我下周要交这一章的作业,还要做PPT,求大神帮忙。 请求支援,急用!谢谢

coderLMN

我这里 这个网址是可以访问的,你再试试看。

we0530
Error in function (type, msg, asError = TRUE)  : 
  error:1407742E:SSL routines:SSL23_GET_SERVER_HELLO:tlsv1 alert protocol version


coderLMN

这个 url 不是 ftp 资源,而是服从 https 协议,所以 dirlistonly = TRUE 选项不适用,你可以参考 P.110 的选项清单,利用 http(s) 的方式去读取网页内容,而不能采用原书中 ftp 下载的方式。

we0530

所有的都试了一遍还是错 error:1407742E:SSL routines:SSL23_GET_SERVER_HELLO:tlsv1 alert protocol version


coderLMN

我这里的环境没有这个问题,要不你不要用 RCurl,换 httr 组件包试试。

we0530


if(!file.exists("Data")) dir.create("Data")#创建文件夹
for(i in 1:length(z)){
}#利用循环下载数据,下载数据s_tmax.txt  s_tmin.txt


filelist <- unlist(str_split(list.files("Data"),"\r\n"))#识别文件名,拆分文本
filelist <- filelist[!filelist==""]

filesavg <- str_detect(filelist,"tavg")#查询并保留文件名里含有tavg的文件
we0530


temperatures <- str_extract(txtparts, "day.*") #利用day及其后面所有的内容
tempData<- data.frame(avgtemp=NA, day=NA, month=NA, year=NA, id="", name="")
tf    <- tempfile()#先用tempfile()函数把气温表写到一个临时文件里
writeLines(temperatures, tf)

coderLMN

貌似数据格式有变化,你可以参考一下原书在 github 上的代码: ,里面的正则表达式都和书里的不一样了。

we0530
start <- proc.time()
temperatures <- str_extract(txtparts, "day.*") 
tempData <- data.frame(avgtemp=NA, day=NA, month=NA, year=NA, id="", name="")
day      <- rep(1:31, 12)
month    <- rep( c(10:12,1:9), each=31 ) 

for(i in seq_along(txtparts)){
    tf <- tempfile()
    writeLines(temperatures[i], tf)
    temptable <- read.fwf(tf, width=c(3,7,6,6,6,6,6,6,6,6,6,6,6), stringsAsFactors=F)
    temptable <- temptable[3:33, -1]
    temptable <- suppressWarnings(as.numeric(unlist(temptable)))
    temptable <- data.frame( avgtemp=temptable, day=day,      month=month, 
                             year=year[i],      name=name[i], id=id[i]     )
    tempData <- rbind(tempData, temptable)
                                                proc.time() - start

老师您好,代码如上,看不太懂,if(F==T)是什么呀?还有为什么要用 proc.time() - start和 proc.time() ?感觉这一段代码不连贯,放在一起运行不出来书中的结果? 还有13.3中气象台的数据CA_sites.dat没有找到,请问您有链接吗?谢谢

coderLMN

if(F==T) 其实就是把这段代码给注释掉了,proc.time() 是用来计算处理时间的,这两个都没有用。 主要是参考里面对于文本数据的处理,比如 temperatures <- str_extract(txtparts, "day[\\s\\S]*") 这一句和原书里的正则表达式就不一样,还有像 temptable <- read.fwf(tf, width=c(3,7,6,6,6,6,6,6,6,6,6,6,6), stringsAsFactors=F) 这些,你可以处理完一句就检查一下结果是否正确,这样有利于定位出错的位置,分析出错原因。 CA_sites.dat 我也没有找到,可能要花点时间多搜索一下。

we0530


coderLMN


  Hbk5 is National Weather Service Handbook 5 ID.  Question mark (?) follows 
   if guessed or inferred from circumstantial evidence
  ????? means NRCS ID exists, but Handbook 5 ID not found
  NWS Handbook 5 IDs may not have been assigned for now-deactivated stations;
   NWS Handbook 5 IDs were taken from NWS Location Identifier software
  Sitename is NRCS name; none appear to have changed during the lifetime 
   of the network
  Lat is Deg Min N
  Lon is Deg Min W
  Elevation is in feet, from NRCS files
  NWS Handbook 5 position/elevations often differ from NRCS values, NRCS used
  SDPXNV is indicator of elements reported. 1-present, 0-absent
  S-Snow Water Equivalent, D-Depth of snow, P-Precipitation
  X-Maximum Temp, N-Minimum Temp, V-Average Daily Temp
  Start is start date for this entry in format yymmdd
  End is end date for this entry in format yymmdd
  New entry for every change in IDs, names, positions, elements reported
  ? at very end indicates major uncertainty about station name or ID
we0530

@coderLMN stationData <- read.csv("Data_CA/CA_sites.dat", header=F, sep="|")[,-c(1:3,8:10)] 老师,下载的.dat文件不能直接读取,读取这里还要修改,这个.dat文件这部分有关气象站的数据,是不是还要像解析半文档一样,解析提取出 Hbk5 NRCSID STNUM Sitename Lat. Long. Elev. SDPXNV Start End 这些数据? 试了试没有解析出来

coderLMN

这个文件的格式和原文件有差异,比如 sep="|" 这个参数就不对,因为每个数据项的分隔符不是 | 而是制表符 /t,其他内容你也需要自己解析一下看看是否正确。

coderLMN


NRCSID Sitename             Lat. Long. Elev.

其他的可以略去,如果你要用 header=F 这个参数,那么就只要那一行横杠底下的数据就可以了,别的内容不要存到文件里,这样解析比较方便,还可以先把它存为 .csv 文件,用 Excel 打开,并删掉不需要的几列数据,然后再从 R 里读取需要的几项数据。

we0530


coderLMN


然后保存为 CA_sites.csv,然后就可以用 excel 打开它了。

另外,第二列的数据都需要在前面加上 'CA',比如第一项 20H13S 应该改为 CA20H13S,这样才能和书中代码里的 id 项格式相符,其他数据项我没时间仔细看,你可以把这个文件的内容和书中列出的数据项比较一下,看看是否还有其他需要修正的地方。

we0530

@coderLMN 我之前复制粘贴到txt里,竟然不行,复制数据,粘贴在excel中,分一下列,然后读取就可以了,谢谢老师!

we0530

@coderLMN 老师,RgoogleMaps谷歌地图我这边的网进不去,而百度地图这个包RbaiduMaps现在也没有了,请问您能不能下载下来程序中的那两个图map1.png和map2.png?

coderLMN


we0530

@coderLMN 老师,现在谷歌地图这个包RgooleMaps不能用,RbaiduMaps现在已失效,请问老师现在还有类似的包并在中国能用的吗?

coderLMN

你可以搜索一下 R 地图包,比如我搜到了一个:

weiwudi

u <- "" a<-getURL(u) page_parse <- htmlParse(u, encoding = "utf-8") Error: failed to load external entity "" 为什么用htmlParse不能解析

coderLMN

这个网页已经改为 https 协议,并自动跳转到了

所以用 RCurl 去访问的时候,无法匹配到 " 这个域名的 SSL 证书,所以会报错。


u <- ""
a <- getURL(u, ssl.verifypeer = FALSE, encoding = 'UTF-8')
Sarahbiu


library(RgoogleMaps) library(png) map <- GetOsmMap(latR = c(37.5,42),lonR = c(-125,-115), scale = 5000000, destfile = "map.png", GRAYSCALE = TRUE, NEWMAP = TRUE) [1] ",37.5,-115,42&scale=5000000&format=png" trying URL ',37.5,-115,42&scale=5000000&format=png' Error in download.file(url, destfile, mode = "wb", quiet = FALSE) : cannot open URL ',37.5,-115,42&scale=5000000&format=png' In addition: Warning message: In download.file(url, destfile, mode = "wb", quiet = FALSE) : cannot open URL ',37.5,-115,42&scale=5000000&format=png': HTTP status was '400 Bad Request'

coderLMN


map <- GetMap(center = c(37.5,42), zoom = 5, destfile = "map.png", GRAYSCALE = TRUE, NEWMAP = TRUE)

而且goole map需要先注册一个app key才可以用(Google返回错误信息:The Google Maps Platform server rejected your request. You must use an API key to authenticate each request to Google Maps Platform APIs. For additional information, please refer to


Sarahbiu


coderLMN


Sarahbiu

好的 谢谢老师

coderLMN

申请 API 密钥需要先确定支付方式,因为 Google 地图 API 是收费的,少量调用是 1000 次收费 2 美元。 gm 参见 Google 文档: (API 密钥申请)和 (用量及费用)。

在 R 里的使用方法是在绘图代码里登记 API 密钥:

map <- GetMap(center = c(37.5,42), zoom = 5, destfile = "map.png", GRAYSCALE = TRUE, NEWMAP = TRUE,             # 原先就只有这些参数,现在需要填写下面这个
API_console_key = "你申请的 API 密钥"    # 用这个参数输入 API 密钥

在 RgoogleMaps 文档 里能看到相关的信息。

Sarahbiu

