PCR由来の重複除去について

nakane-scc commented 3 years ago

NGSから出力されたオリジナルのFASTQファイルを用いて、解析作業を行ってみました。

オリジナルデータが350MBくらいで、.sort.bamファイルにしたところで約半分のサイズになりました。そのデータを重複除去したところ、3MB弱と、極端に小さなファイルになり、おかしいと思ったのですが、作業を続けてみると、100_の操作で出力されるはずの.sort.dedup.recaltab.txtが出力されませんでした。そこで、.sort.dedup.bamのファイル名を.sort.dedup.recal.bamにかえてバリアント検出を行ったところ、130_でつくったVCFの行数が0となっておりました。

以上のことから、重複除去がうまくいかなかったのではないかと思うのですが、このような場合はどのようにすればいいのでしょうか。

nakane-scc commented 3 years ago

上司に聞いたところ、NGSにかける際、分子バーコードを使っているのでうまくいかないのではないかということでしたが、分子バーコードを用いて得られたデータを解析するにはどのような手順を踏めば良いのでしょうか。あるいは、分子バーコードの存在は重複除去がうまくいかないことと無関係でしょうか。

nakane-scc commented 3 years ago

gencoreで解決しました。

misshie / ngsdat2

PCR由来の重複除去について #36