Closed ArneBinder closed 1 year ago
With this PR, running the default experiment but with dataset=conll2003_collect_statistics prints the following to the console (on console, this is in fact colored which is broken here with markdown):
dataset=conll2003_collect_statistics
[2023-03-31 04:35:36,865][src.utils.dataset][INFO] - process dataset: count_documents [2023-03-31 04:35:38,395][src.utils.statistics][INFO] - number of documents: | | test | train | validation | |:----|-------:|--------:|-------------:| | sum | 3453 | 14041 | 3250 | [2023-03-31 04:35:38,396][src.utils.dataset][WARNING] - dataset processor count_documents did not return a result [2023-03-31 04:35:38,396][src.utils.dataset][INFO] - process dataset: collect_label_counts number of entities labels: test ┌──────────────────────────────────────────────────────────────────────────┐ 2.58┤ ██ LOC ████████████████│ │ ██ MISC ████████████████│ │ ██ ORG ███████ █████████████████ █████████████████ ████████████████│ 2.15┤ ██ PER ███████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ 1.72┤████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ 1.29┤████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ 0.86┤████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ 0.43┤████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ 0.00┤████████████████ █████████████████ █████████████████ ████████████████│ └─────────────────────────────────────┬────────────────────────────────────┘ mean number of entities labels: train ┌──────────────────────────────────────────────────────────────────────────┐ 2.51┤ ██ LOC ████████████████│ │ ██ MISC ███████ █████████████████ ████████████████│ │ ██ ORG ███████ █████████████████ █████████████████ ████████████████│ 2.09┤ ██ PER ███████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ 1.67┤████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ 1.25┤████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ 0.84┤████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ 0.42┤████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ 0.00┤████████████████ █████████████████ █████████████████ ████████████████│ └─────────────────────────────────────┬────────────────────────────────────┘ mean number of entities labels: validation ┌──────────────────────────────────────────────────────────────────────────┐ 2.64┤ ██ LOC ████████████████│ │ ██ MISC ████████████████│ │ ██ ORG ███████ █████████████████ █████████████████ ████████████████│ 2.20┤ ██ PER ███████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ 1.76┤████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ 1.32┤████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ 0.88┤████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ 0.44┤████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ │████████████████ █████████████████ █████████████████ ████████████████│ 0.00┤████████████████ █████████████████ █████████████████ ████████████████│ └─────────────────────────────────────┬────────────────────────────────────┘ mean [2023-03-31 04:35:40,002][src.utils.dataset][WARNING] - dataset processor collect_label_counts did not return a result [2023-03-31 04:35:40,002][src.utils.dataset][INFO] - process dataset: collect_label_counts_hist entities labels distribution: test ┌──────────────────────────────────────────────────────────────────────────┐ 1206┤ ██ LOC │ │ ██ MISC │ │ ██ ORG │ 1005┤ ██ PER │ │███████ │ │███████ │ 804┤███████ │ │███████ │ │███████ │ 603┤███████ │ │███████ │ │███████ │ 402┤███████ │ │███████ │ │████████ │ 201┤████████ │ │████████ │ │██████████████ │ 0┤█████████████████████████████ ███████ ██████████████ ███████│ └┬─────────────────┬──────────────────┬─────────────────┬─────────────────┬┘ 1.1 6.6 12.0 17.4 22.9 entities labels distribution: train ┌────────────────────────────────────────────────────────────────────────┐ 3961.0┤ ██ LOC │ │ ██ MISC │ │ ██ ORG │ 3300.8┤ ██ PER │ │███████ │ │███████ │ 2640.7┤███████ │ │███████ │ │███████ │ 1980.5┤███████ │ │███████ │ │███████ │ 1320.3┤████████ │ │████████ │ │████████ │ 660.2┤████████ │ │██████████████ │ │██████████████ │ 0.0┤██████████████████████████████████████████████████ ███████ ███████│ └┬─────────────────┬─────────────────┬────────────────┬─────────────────┬┘ 1.2 6.3 11.5 16.7 21.8 entities labels distribution: validation ┌─────────────────────────────────────────────────────────────────────────┐ 983.0┤ ██ LOC │ │ ██ MISC │ │ ██ ORG │ 819.2┤ ██ PER │ │███████ │ │███████ │ 655.3┤███████ │ │███████ │ │███████ │ 491.5┤███████ │ │███████ │ │███████ │ 327.7┤███████ │ │█████████ │ │█████████ │ 163.8┤█████████ │ │██████████████ │ │██████████████ │ 0.0┤█████████████████████████████ █████████████████████ ██████████████│ └┬─────────────────┬─────────────────┬─────────────────┬─────────────────┬┘ 1.2 6.1 11.0 15.9 20.8 [2023-03-31 04:35:41,635][src.utils.dataset][WARNING] - dataset processor collect_label_counts_hist did not return a result [2023-03-31 04:35:41,635][src.utils.dataset][INFO] - process dataset: collect_field_lengths [2023-03-31 04:35:43,197][src.utils.statistics][INFO] - number of characters: | | test | train | validation | |:-------|---------:|---------:|-------------:| | max | 493 | 512 | 438 | | mean | 70.4008 | 76.8907 | 83.7874 | | min | 1 | 1 | 1 | | stddev | 63.8937 | 65.0066 | 68.9658 | [2023-03-31 04:35:43,197][src.utils.dataset][WARNING] - dataset processor collect_field_lengths did not return a result [2023-03-31 04:35:43,198][src.utils.dataset][INFO] - process dataset: collect_token_numbers [2023-03-31 04:35:46,009][src.utils.statistics][INFO] - number of tokens: | | test | train | validation | |:-------|--------:|---------:|-------------:| | max | 138 | 162 | 144 | | mean | 16.775 | 17.9505 | 19.3683 | | min | 1 | 1 | 1 | | stddev | 13.177 | 13.0162 | 14.5834 | [2023-03-31 04:35:46,009][src.utils.dataset][WARNING] - dataset processor collect_token_numbers did not return a result [2023-03-31 04:35:46,009][src.utils.dataset][INFO] - process dataset: collect_token_numbers_hist number of tokens distribution ┌──────────────────────────────────────────────────────────────────────────┐ 8466┤ ██ test │ │ ██ train │ │ ██ validation │ 7055┤███████ │ │███████ │ │███████ │ 5644┤███████ │ │███████ │ │███████ │ 4233┤███████ │ │███████ │ │██████████████ │ 2822┤██████████████ │ │██████████████ │ │██████████████ ███████ │ 1411┤██████████████ ███████ │ │██████████████ ███████ │ │█████████████████████████████ │ 0┤██████████████████████████████████████████████ ███████████████████ ███████│ └┬─────────────────┬──────────────────┬─────────────────┬─────────────────┬┘ -6.2 37.7 81.5 125.3 169.2 [2023-03-31 04:35:48,759][src.utils.dataset][WARNING] - dataset processor collect_token_numbers_hist did not return a result [2023-03-31 04:35:48,760][src.utils.dataset][INFO] - process dataset: collect_span_lengths entities lengths distribution: test ┌───────────────────────────────────────────────────────────────────────────┐ 762┤ ██ LOC ██████ │ │ ██ MISC ██████ │ │ ██ ORG ██████ │ 635┤ ██ PER ██████ │ │ ██████████ │ │ ██████████ │ 508┤ ██████████ │ │███████████████ │ │███████████████ │ 381┤███████████████ │ │█████████████████ │ │███████████████████ │ 254┤███████████████████████████ │ │███████████████████████████ │ │███████████████████████████ │ 127┤██████████████████████████████ │ │██████████████████████████████ │ │█████████████████████████████████████ ███████ │ 0┤████████████████████████████████████████████████████ ██████████████ ███████│ └┬──────────────────┬─────────────────┬──────────────────┬─────────────────┬┘ -0.0 12.5 25.0 37.5 50.0 entities lengths distribution: train ┌────────────────────────────────────────────────────────────────────────┐ 3575.0┤ ██ LOC ████ │ │ ██ MISC ████ │ │ ██ ORG ████ │ 2979.2┤ ██ PER ████ │ │ ███████████ │ │█████████████ │ 2383.3┤█████████████ │ │████████████████ │ │████████████████ │ 1787.5┤████████████████ │ │████████████████ │ │█████████████████████ │ 1191.7┤█████████████████████ │ │█████████████████████ │ │█████████████████████ │ 595.8┤█████████████████████ │ │██████████████████████████ │ │████████████████████████████████████ │ 0.0┤███████████████████████████████████ ███████████████████████████│ └┬─────────────────┬─────────────────┬────────────────┬─────────────────┬┘ -1.7 14.9 31.5 48.1 64.7 entities lengths distribution: validation ┌─────────────────────────────────────────────────────────────────────────┐ 934.0┤ ██ LOC │ │ ██ MISC │ │ ██ ORG │ 778.3┤ ██ PER │ │ ████ │ │█████████ │ 622.7┤█████████ │ │█████████ ████ │ │█████████ ████ │ 467.0┤██████████████████ │ │██████████████████ │ │██████████████████ │ 311.3┤██████████████████ │ │██████████████████ │ │██████████████████████ │ 155.7┤██████████████████████ │ │██████████████████████ │ │████████████████████████████████████ │ 0.0┤██████████████████████████████████████████████████████████ ██████████████│ └┬─────────────────┬─────────────────┬─────────────────┬─────────────────┬┘ -0.7 15.9 32.5 49.1 65.7 [2023-03-31 04:35:50,438][src.utils.dataset][WARNING] - dataset processor collect_span_lengths did not return a result
With this PR, running the default experiment but with
dataset=conll2003_collect_statistics
prints the following to the console (on console, this is in fact colored which is broken here with markdown):