(not a bug) question about bert `create_pretraining_data.tokenize_lines()`

dmlc / gluon-nlp

NLP made easy

Apache License 2.0

2.56k stars 538 forks source link

Description

In the function scripts.pretraining.bert.create_pretraining_data.tokenize_lines()

The code snippet:

for line in lines:
        if not line:
            break
        line = line.strip()
        # Empty lines are used as document delimiters
        if not line:
            results.append([])
        else:
            #<OMITTED FOR BREVITY...>
    return results

Suggests that empty or null lines (e.g. "" or None) break the for-loop returning only the lines that have been processed so far whereas stripped-empty lines (e.g. " ") are used as document delimiters.

Could someone shed light as to what the (empty line + break-from-loop) is meant to accomplish? Are empty/null lines used as delimiters?

dmlc / gluon-nlp

(not a bug) question about bert `create_pretraining_data.tokenize_lines()` #1592

Description