misshie / ngsdat2

NGS Data Analysis Textbook Version 2 (Disease Genome Analysis)
MIT License
42 stars 22 forks source link

PCR由来の重複除去について #36

Closed nakane-scc closed 3 years ago

nakane-scc commented 3 years ago

NGSから出力されたオリジナルのFASTQファイルを用いて、解析作業を行ってみました。

オリジナルデータが350MBくらいで、.sort.bamファイルにしたところで約半分のサイズになりました。そのデータを重複除去したところ、3MB弱と、極端に小さなファイルになり、おかしいと思ったのですが、作業を続けてみると、100_の操作で出力されるはずの.sort.dedup.recaltab.txtが出力されませんでした。 そこで、.sort.dedup.bamのファイル名を.sort.dedup.recal.bamにかえてバリアント検出を行ったところ、130_でつくったVCFの行数が0となっておりました。

以上のことから、重複除去がうまくいかなかったのではないかと思うのですが、このような場合はどのようにすればいいのでしょうか。

nakane-scc commented 3 years ago

上司に聞いたところ、NGSにかける際、分子バーコードを使っているのでうまくいかないのではないかということでしたが、分子バーコードを用いて得られたデータを解析するにはどのような手順を踏めば良いのでしょうか。あるいは、分子バーコードの存在は重複除去がうまくいかないことと無関係でしょうか。

nakane-scc commented 3 years ago

gencoreで解決しました。