Figure 2 - Githubissues

Figure 2: Machine Learning Filters compared A. Pipeline Schematic for masterVar formatting and RF training- python/ipynb script Join coverage data to each variant (average for multi-base variants)

B. Training results - out-of-bag scores; (feature importances, appendix table) Test results with NA12878 using different features sets Time to train model Size of model: uncompressed vs compressed complexity of models (20k variants, 100k variants, 1 million variants, 3.8 million variants)

    Hyper-parameter GridSearch

Comparison of misclassified variants for each algorithm
    Venn Diagram fp variants remaining vs fp filtered
    Venn Diagram for tp variants remaining vs tp filtered

C. Comparison by GCAT

Schork-Lab / cg-classifier

Figure 2 #13