Open zchunc opened 6 years ago
第一个问题的原因有可能是没有取到数据。我怀疑是前面的 .html 文件下载没有成功,你可以看看本地的 ~/Press_Releases/
文件夹里是否有 245 个 .html 文件(原书翻译的时候是 747 个,现在已经少了),会不会是因为你还没有建这个文件夹呢。我下载数据之后,再按照你上面的这些代码执行,结果是没有问题的:
> meta(release_corpus[[1]])
author : character(0)
datetimestamp: 2017-12-28 03:56:52
description : character(0)
heading : character(0)
id : 1
language : en
origin : character(0)
organisation : Prime Minister's Office, 10 Downing Street
publication : Published 1 July 2010
因为我看不到你那边的数据,所以只能猜测一下。如果我的猜测不对,请告诉我。
第二个问题在于你改掉的那行代码:
release_corpus <- Corpus(VectorSource(release))
# release_corpus <- c(release_corpus, tmp_corpus)
这样在循环里每次都把 release_corpus
给初始化了,所以在访问 release_corpus[[n]]
的时候会越界。把它改回原来的代码就好了:
tmp_corpus <- Corpus(VectorSource(release)) #构建一个临时语料
release_corpus <- c(release_corpus, tmp_corpus) #把临时语料加入到总的语料中