Closed nakane-scc closed 3 years ago
NGSから出力されたオリジナルのFASTQファイルを用いて、解析作業を行ってみました。
オリジナルデータが350MBくらいで、.sort.bamファイルにしたところで約半分のサイズになりました。そのデータを重複除去したところ、3MB弱と、極端に小さなファイルになり、おかしいと思ったのですが、作業を続けてみると、100_の操作で出力されるはずの.sort.dedup.recaltab.txtが出力されませんでした。 そこで、.sort.dedup.bamのファイル名を.sort.dedup.recal.bamにかえてバリアント検出を行ったところ、130_でつくったVCFの行数が0となっておりました。
以上のことから、重複除去がうまくいかなかったのではないかと思うのですが、このような場合はどのようにすればいいのでしょうか。
上司に聞いたところ、NGSにかける際、分子バーコードを使っているのでうまくいかないのではないかということでしたが、分子バーコードを用いて得られたデータを解析するにはどのような手順を踏めば良いのでしょうか。あるいは、分子バーコードの存在は重複除去がうまくいかないことと無関係でしょうか。
gencoreで解決しました。
NGSから出力されたオリジナルのFASTQファイルを用いて、解析作業を行ってみました。
オリジナルデータが350MBくらいで、.sort.bamファイルにしたところで約半分のサイズになりました。そのデータを重複除去したところ、3MB弱と、極端に小さなファイルになり、おかしいと思ったのですが、作業を続けてみると、100_の操作で出力されるはずの.sort.dedup.recaltab.txtが出力されませんでした。 そこで、.sort.dedup.bamのファイル名を.sort.dedup.recal.bamにかえてバリアント検出を行ったところ、130_でつくったVCFの行数が0となっておりました。
以上のことから、重複除去がうまくいかなかったのではないかと思うのですが、このような場合はどのようにすればいいのでしょうか。