liyongsea / parallel_corpus_mnbvc

parallel corpus dataset from the mnbvc project
Apache License 2.0
8 stars 5 forks source link

重铸REPO的结构 #16

Closed liyongsea closed 9 months ago

liyongsea commented 1 year ago
align-parallel-corpora/
│
├── .gitignore
├── README.md
├── LICENSE
├── requirements.txt
│
├── src/
│   ├── __init__.py
│   ├── alignment.py
│   ├── tokenization.py
│   ├── evaluation.py
│   └── utils.py
│
├── data/
│   ├── united_nations_documents/
│   │   ├── raw/
│   │   ├── processed/
│   │   └── output/
│   ├── translated_books/
│   │   ├── raw/
│   │   ├── processed/
│   │   └── output/
│   └── other_sources/ (if needed)
│
├── models/
│   ├── pretrained/
│   └── custom/
│
├── configs/
│   └── aligner_config.yaml
│
└── scripts/
    ├── united_nations_documents/
    │   ├── download_un_documents.py
    │   ├── preprocess_un_data.py
    │   ├── train_un_aligner.py
    │   └── evaluate_un_aligner.py
    ├── translated_books/
    │   ├── download_translated_books.py
    │   ├── preprocess_books_data.py
    │   ├── train_books_aligner.py
    │   └── evaluate_books_aligner.py
    └── other_sources/ (if needed)