Save a spaCy doc object of the Hansard corpus to disk

Instead of students waiting 10 years for spaCy to parse the Hansard corpus, it would be great if they could just load an already parsed spaCy doc object.

Here is are some instructions for saving and loading spaCy doc objects.

@alexanderr - can you please save a parsed spaCy doc object of /scratch/group/history/hist_3368-jguldi/hansard_1970_79.csv as /scratch/group/history/hist_3368-jguldi/hansard_1870_9_doc_object?

You should be able to parse the Hansard corpus in parallel like this:

import multiprocessing as mp
import spacy
import pandas as pd

nlp = spacy.load("en_core_web_sm")

hansard = pd.read_csv('/scratch/group/history/hist_3368-jguldi/hansard_1970_79.csv')

def spacy_nlp_pipe(hansard):
tokens = []
lemma = []
pos = []

for doc in nlp.pipe(hansard, batch_size=1000):
if doc.is_parsed:
tokens.append([n.text for n in doc])
lemma.append([n.lemma_ for n in doc])
pos.append([n.pos_ for n in doc])
else:
tokens.append(None)
lemma.append(None)
pos.append(None)

return [tokens, lemma, pos]

pool = mp.Pool(processes = 36)
results = pool.map(spacy_nlp_pipe, hansard['text'].to_list())

Then save the parsed doc object using the instructions linked above.

Please add your code to digital-history/utilities

stephbuon / digital-history

Save a spaCy doc object of the Hansard corpus to disk #43