misshie / ngsdat2

NGS Data Analysis Textbook Version 2 (Disease Genome Analysis)
MIT License
42 stars 22 forks source link

p88 fasterq-dumpでエラーが出る #42

Closed knakamura6222053 closed 2 years ago

knakamura6222053 commented 2 years ago

大変お忙しい中、申し訳ございません。 p88 fasterq-dump --split-files SRR で fasterq-dump.2.11.0 err: invalid accession が出てしまいます。

解決策がございましたらご教授いただけないでしょうか。 宜しくお願い致します。

inutano commented 2 years ago

invalid accession エラーは、fasterq-dump に渡す引数のアクション番号のフォーマットが不正という意味です。この場合 SRR しか渡していないのでエラーになっているのではと思います。通常、SRA のアクション番号は SRR000001 などのように SRR などの prefix の後に番号が付随します。手元に本がないので参照できないのですが、コマンドに渡している引数を確認してみるとよいかもしれません。

knakamura6222053 commented 2 years ago

大変お忙しい中、ご回答いただき有難うございます。 SRRの後ろにそれぞれの番号を記載したのですが、状況が改善されませんでした。 今回のサンプルのアクション番号は以下のものです。 SRR1551005 SRR1551011 SRR1551091 SRR1550989 SRR1551050 SRR1551057 SRR1551071

これを実行してもfasterq-dump.2.11.0 err: invalid accession と出てしまいました。

inutano commented 2 years ago

私の手元でも同じエラーが出てしまいました。エラーメッセージ fasterq-dump.2.11.0 err: invalid accession で google 検索すると、同じような事象が過去にも起きているようです。 https://github.com/ncbi/sra-tools/issues/478

スレッドには prefetch コマンドを使って先に .sra ファイルをダウンロードしてから fasterq-dump をしてね、とあるので prefetch をしてみましたが、別のエラーが出てダウンロードできませんでした。

$ prefetch -v SRR1551005
2022-06-03T05:51:14 prefetch.2.9.3 err: path not found while resolving tree within virtual file system module - 'SRR1551005' cannot be found.

ダウンロードできるはずの別のアクセッション番号 (e.g. DRR000001) で試してみても状況が同じなので、データが置いてあるNCBIのサーバに問題があるのかもしれません。

同じデータがDDBJにもあるはずなので、DDBJからダウンロードしてみるとよいかもしれません。DRAの検索ページ https://ddbj.nig.ac.jp/search からアクセッション番号で検索するとこういったページに辿り着きます: https://ddbj.nig.ac.jp/resource/sra-run/SRR1551005

DDBJでは圧縮された .sra ファイルと展開済みの (fasterq-dumpの出力である) .fastq ファイルの両方が公開されています。こちらのページの HTTPS/FTP のリンクから fastq ファイルをダウンロードすると手間が省けてよいかと思います。

ただ、今回は7件もあるので、手でポチポチすると大変ですから、コマンドで一発で取ってきてもいいかと思います。 まず DDBJ が配布している fastq のリストを取ってきます。DDBJのFTPにあります。

$ curl -s ftp.ddbj.nig.ac.jp/ddbj_database/dra/meta/list/fastqlist > fastqlist

欲しい run があるかどうか grep で確認します。

$ for run in SRR1551005 SRR1551011 SRR1551091 SRR1550989 SRR1551050 SRR1551057 SRR1551071; do grep $run fastqlist; done
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680565/SRR1551005.fastq.bz2    d3092725c9807aded1fd1666d69d0259    1610117 2016-05-09 19:38:29+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680565/SRR1551005_1.fastq.bz2  63f7637fe9da9cc34a823f86bc586fe4    956390930   2016-05-09 19:38:29+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680565/SRR1551005_2.fastq.bz2  b9ea6feb5c19102600b3de7011398a5e    977716359   2016-05-09 19:38:29+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680571/SRR1551011.fastq.bz2    dbdcfc4f86006d1bdaff666412b94d2c    692795  2016-05-09 19:40:34+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680571/SRR1551011_1.fastq.bz2  b55858d5139af68bf0da82e8764cfda4    555054028   2016-05-09 19:40:34+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680571/SRR1551011_2.fastq.bz2  a1aad6c57f437224b8375863d5ca9b66    561181647   2016-05-09 19:40:34+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680651/SRR1551091.fastq.bz2    fbfce682236cd44029667830e6a3a501    985225  2016-05-09 20:45:17+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680651/SRR1551091_1.fastq.bz2  1405d6f479dad501cc51f22f5e726e88    317336370   2016-05-09 20:45:17+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680651/SRR1551091_2.fastq.bz2  b79065ae9a4cb290ab10ee9b79ee1beb    325853796   2016-05-09 20:45:17+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680549/SRR1550989.fastq.bz2    29fe400e5d14b731e566531563497735    497525  2016-05-09 19:20:52+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680549/SRR1550989_1.fastq.bz2  839b7879e23f9fc46a4b2c07906e4000    598835032   2016-05-09 19:20:52+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680549/SRR1550989_2.fastq.bz2  965762578eb7a49a89ecaabf46cdb853    603574867   2016-05-09 19:20:52+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680610/SRR1551050.fastq.bz2    c24a248a3310920b16e4aecc0d9cb68f    3040941 2016-05-09 20:13:38+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680610/SRR1551050_1.fastq.bz2  ee043bebab0e29cf754d55573e6664d0    1045218447  2016-05-09 20:13:38+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680610/SRR1551050_2.fastq.bz2  6e43a1f142a18285d17128669835410a    1092196631  2016-05-09 20:13:38+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680617/SRR1551057.fastq.bz2    459a09b533bfec36676bb2a1cb3fbe04    2609754 2016-05-09 20:16:44+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680617/SRR1551057_1.fastq.bz2  b0fcde89fea45ecb0b9c5a207129ce82    869445799   2016-05-09 20:16:44+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680617/SRR1551057_2.fastq.bz2  58671ece19a4145d898fa1717a2b9c70    905835510   2016-05-09 20:16:44+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680631/SRR1551071.fastq.bz2    231980a1ea85ee296a05cba63e2b0c13    2505298 2016-05-09 20:29:09+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680631/SRR1551071_1.fastq.bz2  c71fa72d3a0ad565dccc50e2206805f6    772107158   2016-05-09 20:29:09+09
/ddbj_database/dra/fastq/SRA179/SRA179316/SRX680631/SRR1551071_2.fastq.bz2  df676bb7a31cd143a1bde0bbf4bedbbe    803344512   2016-05-09 20:29:09+09

一列目がDDBJ FTP上のpathを示しているので、これに DDBJ FTP のアドレスをつけて実際のFTPのURLに加工します。

$ for run in SRR1551005 SRR1551011 SRR1551091 SRR1550989 SRR1551050 SRR1551057 SRR1551071; do grep $run fastqlist; done | awk '{ print "ftp://ftp.ddbj.nig.ac.jp/" $1 }'
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680565/SRR1551005.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680565/SRR1551005_1.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680565/SRR1551005_2.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680571/SRR1551011.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680571/SRR1551011_1.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680571/SRR1551011_2.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680651/SRR1551091.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680651/SRR1551091_1.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680651/SRR1551091_2.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680549/SRR1550989.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680549/SRR1550989_1.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680549/SRR1550989_2.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680610/SRR1551050.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680610/SRR1551050_1.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680610/SRR1551050_2.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680617/SRR1551057.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680617/SRR1551057_1.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680617/SRR1551057_2.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680631/SRR1551071.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680631/SRR1551071_1.fastq.bz2
ftp://ftp.ddbj.nig.ac.jp//ddbj_database/dra/fastq/SRA179/SRA179316/SRX680631/SRR1551071_2.fastq.bz2

これを全部 wget で取ってきます。

$ for run in SRR1551005 SRR1551011 SRR1551091 SRR1550989 SRR1551050 SRR1551057 SRR1551071; do grep $run fastqlist; done | awk '{ print "ftp://ftp.ddbj.nig.ac.jp/" $1 }' | xargs wget

これで全部データが取得できます。 何かわからないところがあれば遠慮なくお知らせください!

knakamura6222053 commented 2 years ago

有難うございます。

上手く実行できました。 お忙しい中、ご対応いただき有難うございます。