ArneBinder / pytorch-ie-hydra-template-1

PyTorch-IE Hydra Template
8 stars 1 forks source link

Collect dataset statistics #82

Closed ArneBinder closed 1 year ago

ArneBinder commented 1 year ago

With this PR, running the default experiment but with dataset=conll2003_collect_statistics prints the following to the console (on console, this is in fact colored which is broken here with markdown):

[2023-03-31 04:35:36,865][src.utils.dataset][INFO] - process dataset: count_documents
[2023-03-31 04:35:38,395][src.utils.statistics][INFO] - number of documents:
|     |   test |   train |   validation |
|:----|-------:|--------:|-------------:|
| sum |   3453 |   14041 |         3250 |
[2023-03-31 04:35:38,396][src.utils.dataset][WARNING] - dataset processor count_documents did not return a result
[2023-03-31 04:35:38,396][src.utils.dataset][INFO] - process dataset: collect_label_counts
                           number of entities labels: test                      
    ┌──────────────────────────────────────────────────────────────────────────┐
2.58┤ ██ LOC                                                   ████████████████│
    │ ██ MISC                                                  ████████████████│
    │ ██ ORG  ███████   █████████████████  █████████████████   ████████████████│
2.15┤ ██ PER  ███████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
1.72┤████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
1.29┤████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
0.86┤████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
0.43┤████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
0.00┤████████████████   █████████████████  █████████████████   ████████████████│
    └─────────────────────────────────────┬────────────────────────────────────┘
                                        mean                                    
                          number of entities labels: train                      
    ┌──────────────────────────────────────────────────────────────────────────┐
2.51┤ ██ LOC                                                   ████████████████│
    │ ██ MISC ███████                      █████████████████   ████████████████│
    │ ██ ORG  ███████   █████████████████  █████████████████   ████████████████│
2.09┤ ██ PER  ███████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
1.67┤████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
1.25┤████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
0.84┤████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
0.42┤████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
0.00┤████████████████   █████████████████  █████████████████   ████████████████│
    └─────────────────────────────────────┬────────────────────────────────────┘
                                        mean                                    
                        number of entities labels: validation                   
    ┌──────────────────────────────────────────────────────────────────────────┐
2.64┤ ██ LOC                                                   ████████████████│
    │ ██ MISC                                                  ████████████████│
    │ ██ ORG  ███████   █████████████████  █████████████████   ████████████████│
2.20┤ ██ PER  ███████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
1.76┤████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
1.32┤████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
0.88┤████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
0.44┤████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
    │████████████████   █████████████████  █████████████████   ████████████████│
0.00┤████████████████   █████████████████  █████████████████   ████████████████│
    └─────────────────────────────────────┬────────────────────────────────────┘
                                        mean                                    
[2023-03-31 04:35:40,002][src.utils.dataset][WARNING] - dataset processor collect_label_counts did not return a result
[2023-03-31 04:35:40,002][src.utils.dataset][INFO] - process dataset: collect_label_counts_hist
                         entities labels distribution: test                     
    ┌──────────────────────────────────────────────────────────────────────────┐
1206┤ ██ LOC                                                                   │
    │ ██ MISC                                                                  │
    │ ██ ORG                                                                   │
1005┤ ██ PER                                                                   │
    │███████                                                                   │
    │███████                                                                   │
 804┤███████                                                                   │
    │███████                                                                   │
    │███████                                                                   │
 603┤███████                                                                   │
    │███████                                                                   │
    │███████                                                                   │
 402┤███████                                                                   │
    │███████                                                                   │
    │████████                                                                  │
 201┤████████                                                                  │
    │████████                                                                  │
    │██████████████                                                            │
   0┤█████████████████████████████        ███████ ██████████████        ███████│
    └┬─────────────────┬──────────────────┬─────────────────┬─────────────────┬┘
    1.1               6.6               12.0              17.4             22.9 
                          entities labels distribution: train                   
      ┌────────────────────────────────────────────────────────────────────────┐
3961.0┤ ██ LOC                                                                 │
      │ ██ MISC                                                                │
      │ ██ ORG                                                                 │
3300.8┤ ██ PER                                                                 │
      │███████                                                                 │
      │███████                                                                 │
2640.7┤███████                                                                 │
      │███████                                                                 │
      │███████                                                                 │
1980.5┤███████                                                                 │
      │███████                                                                 │
      │███████                                                                 │
1320.3┤████████                                                                │
      │████████                                                                │
      │████████                                                                │
 660.2┤████████                                                                │
      │██████████████                                                          │
      │██████████████                                                          │
   0.0┤██████████████████████████████████████████████████ ███████       ███████│
      └┬─────────────────┬─────────────────┬────────────────┬─────────────────┬┘
      1.2               6.3              11.5             16.7             21.8 
                      entities labels distribution: validation                  
     ┌─────────────────────────────────────────────────────────────────────────┐
983.0┤ ██ LOC                                                                  │
     │ ██ MISC                                                                 │
     │ ██ ORG                                                                  │
819.2┤ ██ PER                                                                  │
     │███████                                                                  │
     │███████                                                                  │
655.3┤███████                                                                  │
     │███████                                                                  │
     │███████                                                                  │
491.5┤███████                                                                  │
     │███████                                                                  │
     │███████                                                                  │
327.7┤███████                                                                  │
     │█████████                                                                │
     │█████████                                                                │
163.8┤█████████                                                                │
     │██████████████                                                           │
     │██████████████                                                           │
  0.0┤█████████████████████████████        █████████████████████ ██████████████│
     └┬─────────────────┬─────────────────┬─────────────────┬─────────────────┬┘
     1.2               6.1              11.0              15.9             20.8 
[2023-03-31 04:35:41,635][src.utils.dataset][WARNING] - dataset processor collect_label_counts_hist did not return a result
[2023-03-31 04:35:41,635][src.utils.dataset][INFO] - process dataset: collect_field_lengths
[2023-03-31 04:35:43,197][src.utils.statistics][INFO] - number of characters:
|        |     test |    train |   validation |
|:-------|---------:|---------:|-------------:|
| max    | 493      | 512      |     438      |
| mean   |  70.4008 |  76.8907 |      83.7874 |
| min    |   1      |   1      |       1      |
| stddev |  63.8937 |  65.0066 |      68.9658 |
[2023-03-31 04:35:43,197][src.utils.dataset][WARNING] - dataset processor collect_field_lengths did not return a result
[2023-03-31 04:35:43,198][src.utils.dataset][INFO] - process dataset: collect_token_numbers
[2023-03-31 04:35:46,009][src.utils.statistics][INFO] - number of tokens:
|        |    test |    train |   validation |
|:-------|--------:|---------:|-------------:|
| max    | 138     | 162      |     144      |
| mean   |  16.775 |  17.9505 |      19.3683 |
| min    |   1     |   1      |       1      |
| stddev |  13.177 |  13.0162 |      14.5834 |
[2023-03-31 04:35:46,009][src.utils.dataset][WARNING] - dataset processor collect_token_numbers did not return a result
[2023-03-31 04:35:46,009][src.utils.dataset][INFO] - process dataset: collect_token_numbers_hist
                            number of tokens distribution                       
    ┌──────────────────────────────────────────────────────────────────────────┐
8466┤ ██ test                                                                  │
    │ ██ train                                                                 │
    │ ██ validation                                                            │
7055┤███████                                                                   │
    │███████                                                                   │
    │███████                                                                   │
5644┤███████                                                                   │
    │███████                                                                   │
    │███████                                                                   │
4233┤███████                                                                   │
    │███████                                                                   │
    │██████████████                                                            │
2822┤██████████████                                                            │
    │██████████████                                                            │
    │██████████████ ███████                                                    │
1411┤██████████████ ███████                                                    │
    │██████████████ ███████                                                    │
    │█████████████████████████████                                             │
   0┤██████████████████████████████████████████████ ███████████████████ ███████│
    └┬─────────────────┬──────────────────┬─────────────────┬─────────────────┬┘
   -6.2              37.7               81.5              125.3           169.2 
[2023-03-31 04:35:48,759][src.utils.dataset][WARNING] - dataset processor collect_token_numbers_hist did not return a result
[2023-03-31 04:35:48,760][src.utils.dataset][INFO] - process dataset: collect_span_lengths
                        entities lengths distribution: test                     
   ┌───────────────────────────────────────────────────────────────────────────┐
762┤ ██ LOC  ██████                                                            │
   │ ██ MISC ██████                                                            │
   │ ██ ORG  ██████                                                            │
635┤ ██ PER  ██████                                                            │
   │     ██████████                                                            │
   │     ██████████                                                            │
508┤     ██████████                                                            │
   │███████████████                                                            │
   │███████████████                                                            │
381┤███████████████                                                            │
   │█████████████████                                                          │
   │███████████████████                                                        │
254┤███████████████████████████                                                │
   │███████████████████████████                                                │
   │███████████████████████████                                                │
127┤██████████████████████████████                                             │
   │██████████████████████████████                                             │
   │█████████████████████████████████████ ███████                              │
  0┤████████████████████████████████████████████████████ ██████████████ ███████│
   └┬──────────────────┬─────────────────┬──────────────────┬─────────────────┬┘
  -0.0               12.5              25.0               37.5             50.0 
                         entities lengths distribution: train                   
      ┌────────────────────────────────────────────────────────────────────────┐
3575.0┤ ██ LOC  ████                                                           │
      │ ██ MISC ████                                                           │
      │ ██ ORG  ████                                                           │
2979.2┤ ██ PER  ████                                                           │
      │  ███████████                                                           │
      │█████████████                                                           │
2383.3┤█████████████                                                           │
      │████████████████                                                        │
      │████████████████                                                        │
1787.5┤████████████████                                                        │
      │████████████████                                                        │
      │█████████████████████                                                   │
1191.7┤█████████████████████                                                   │
      │█████████████████████                                                   │
      │█████████████████████                                                   │
 595.8┤█████████████████████                                                   │
      │██████████████████████████                                              │
      │████████████████████████████████████                                    │
   0.0┤███████████████████████████████████          ███████████████████████████│
      └┬─────────────────┬─────────────────┬────────────────┬─────────────────┬┘
     -1.7              14.9              31.5             48.1             64.7 
                      entities lengths distribution: validation                 
     ┌─────────────────────────────────────────────────────────────────────────┐
934.0┤ ██ LOC                                                                  │
     │ ██ MISC                                                                 │
     │ ██ ORG                                                                  │
778.3┤ ██ PER                                                                  │
     │     ████                                                                │
     │█████████                                                                │
622.7┤█████████                                                                │
     │█████████ ████                                                           │
     │█████████ ████                                                           │
467.0┤██████████████████                                                       │
     │██████████████████                                                       │
     │██████████████████                                                       │
311.3┤██████████████████                                                       │
     │██████████████████                                                       │
     │██████████████████████                                                   │
155.7┤██████████████████████                                                   │
     │██████████████████████                                                   │
     │████████████████████████████████████                                     │
  0.0┤██████████████████████████████████████████████████████████ ██████████████│
     └┬─────────────────┬─────────────────┬─────────────────┬─────────────────┬┘
    -0.7              15.9              32.5              49.1             65.7 
[2023-03-31 04:35:50,438][src.utils.dataset][WARNING] - dataset processor collect_span_lengths did not return a result