yuifu / ngsdat2_epigenome_chipseq

7 stars 7 forks source link

tar.gz fileの解凍について #8

Closed daiki-hayashi-kanazawa closed 2 years ago

daiki-hayashi-kanazawa commented 3 years ago

DRY解析教本にて勉強させています。ご質問させていただきます。 改定第2版P115のヒトリファレンスゲノム配列(hg38)用のpre-built index fileのダウンロードは可能でしたが(ファイルサイズ3.93GB)、以下のコマンドでは解凍できません。以下のようなエラーがでます。

tar xvzf GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz x GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.1.bt2: gzip decompression failed tar: Error exit delayed from previous errors.

また、GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gzと同じディレクトリ内に GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.1.bt2が作成されています。

上記事象について、いかがでしょうか?

yuifu commented 3 years ago

うまく解凍できている場合、以下のファイルができます。

GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.1.bt2
GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.2.bt2
GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.3.bt2
GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.4.bt2
GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.rev.1.bt2
GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.rev.2.bt2

"tar: Error exit delayed from previous errors." のエラーが出る理由は複数あり得ますが、例えば、

daiki-hayashi-kanazawa commented 3 years ago

ご返信いただき、誠にありがとうございます。 上記処理のindex.1.bt2で止まっているということになりますね。

・ディレクトリのアクセス権限については、読み/書きともに権限を与えております。念の為、chmod 777 コマンドも実行しました。 ・空き容量は180GBほどあります。 ・PCは、MacBook Pro (13-inch, 2018, Four Thunderbolt 3 Ports)、2.3 GHz クアッドコアIntel Core i5、16 GB 2133 MHz LPDDR3、macOS BigSur 11.5 を使用しております。

S-Minabe commented 3 years ago

こちら、同じエラーが出ましたが以下のように解決しました。 私の場合、ファイルの破損が原因みたいです。参考までに。 https://qiita.com/shi_tanman/items/97962e07732cb99124fe

yuifu commented 3 years ago

@daiki-hayashi-kanazawa 情報をいただきありがとうございます。

@S-Minabe 記事の情報をいただきありがとうございます。

どういう状態になったらうまくいったと言えるか

私の環境では、 wget のログはこのようになりました。

$ wget ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_genbank/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh38/seqs_for_alignment_pipelines/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz
--2021-08-08 18:01:08--  ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_genbank/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh38/seqs_for_alignment_pipelines/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz
           => `GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz'
ftp.ncbi.nlm.nih.gov (ftp.ncbi.nlm.nih.gov) をDNSに問いあわせています... 165.112.9.229, 165.112.9.230
ftp.ncbi.nlm.nih.gov (ftp.ncbi.nlm.nih.gov)|165.112.9.229|:21 に接続しています... 接続しました。
anonymous としてログインしています... ログインしました!
==> SYST ... 完了しました。    ==> PWD ... 完了しました。
==> TYPE I ... 完了しました。  ==> CWD (1) /genomes/archive/old_genbank/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh38/seqs_for_alignment_pipelines ... 完了しました。
==> SIZE GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz ... 3749247988
==> PASV ... 完了しました。    ==> RETR GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz ... 完了しました。
長さ: 3749247988 (3.5G) (確証はありません)

GCA_000001405.15_GRCh38_no_ 100%[=========================================>]   3.49G  1.72MB/s 時間 19m 40s  

2021-08-08 18:20:51 (3.03 MB/s) - 制御用の接続を切断します。
再試行しています。

--2021-08-08 18:35:52--  ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_genbank/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh38/seqs_for_alignment_pipelines/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz
  (試行: 2) => `GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz'
ftp.ncbi.nlm.nih.gov (ftp.ncbi.nlm.nih.gov)|165.112.9.229|:21 に接続しています... 接続しました。
anonymous としてログインしています... ログインしました!
==> SYST ... 完了しました。    ==> PWD ... 完了しました。
==> TYPE I ... 完了しました。  ==> CWD (1) /genomes/archive/old_genbank/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh38/seqs_for_alignment_pipelines ... 完了しました。
==> SIZE GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz ... 3749247988
ファイルはすでに取得済です。
2021-08-08 18:35:54 (0.00 B/s) - `GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz' へ保存終了 [3749247988]

@S-Minabe さんに貼っていただいた記事にある MD5のハッシュ値 は以下のように md5 または md5sum-lite というコマンドで確認できます。 今回は 3f493e82d549f1d476491930965c10d0 となっていれば、正常にダウンロードできていることになります。

$ md5 GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz 
MD5 (GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz) = 3f493e82d549f1d476491930965c10d0
$ md5sum-lite GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz 
3f493e82d549f1d476491930965c10d0  GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz

解凍がうまくいっていると次のようになります。

$  tar xvzf GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz 
x GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.1.bt2
x GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.2.bt2
x GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.3.bt2
x GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.4.bt2
x GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.rev.1.bt2
x GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.rev.2.bt2

どうしたらダウンロードを正常に完了できるか

以下、確実ではありませんが、試していただきたい事柄になります:

[1] もういちどダウンロードし直して、 MD5 ハッシュ値を確認する

上の例のように、md5 または md5sum-lite というコマンドで 3f493e82d549f1d476491930965c10d0 が出力されれば、正常にダウンロードできていることになります。

[2] wget をインストールし直してみる。

本日改めて自分の iMac (macOS 10.15.7) で試したところ、 @daiki-hayashi-kanazawa さんと同様の症状が出ました。この際、以下のようにハッシュ値も正解とは異なっていました。

$ md5sum-lite GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz
3f80a7b1d8ab54b7a811f786ddbdd3fd  GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz

$ tar xvzf GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.tar.gz 
x GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.1.bt2
x GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.bowtie_index.2.bt2: gzip decompression failed
tar: Error exit delayed from previous errors.

Homebrew も wget も OSアップデート前に入れたものであったこともあり、試しに homebrew をインストールし直した上で、 wget をインストールし直しました。すると、上記の例のようにうまくダウンロード・解凍することができました。インストールし直したのは以下のバージョンです。

$ wget --version
GNU Wget 1.21.1 built on darwin19.6.0.

-cares +digest -gpgme +https +ipv6 +iri +large-file -metalink +nls 
+ntlm +opie -psl +ssl/openssl 

Wgetrc: 
    /usr/local/etc/wgetrc (system)
ロケール: 
    /usr/local/Cellar/wget/1.21.1/share/locale 
コンパイル: 
    clang -DHAVE_CONFIG_H -DSYSTEM_WGETRC="/usr/local/etc/wgetrc" 
    -DLOCALEDIR="/usr/local/Cellar/wget/1.21.1/share/locale" -I. 
    -I../lib -I../lib -I/usr/local/opt/openssl@1.1/include -DNDEBUG -g 
    -O2 
リンク: 
    clang -DNDEBUG -g -O2 -lidn2 -L/usr/local/opt/openssl@1.1/lib -lssl 
    -lcrypto -ldl -lz ftp-opie.o openssl.o http-ntlm.o ../lib/libgnu.a 
    -liconv -lintl -Wl,-framework -Wl,CoreFoundation -lunistring 

Copyright (C) 2015 Free Software Foundation, Inc.
ライセンス GPLv3+: GNU GPL バージョン 3 あるいはそれ以降のバージョン
<http://www.gnu.org/licenses/gpl.html>.
このソフトウェアはフリーソフトウェアです。自由に変更、再配布ができます。
法律が許すかぎり、全くの無保証です。

Hrvoje Niksic <hniksic@xemacs.org> によって書かれました。
バグ報告や質問は<bug-wget@gnu.org>へ
daiki-hayashi-kanazawa commented 2 years ago

ご返信いただき、誠にありがとうございます。前回の投稿より期間が空いてしまい申し訳ありません。 Homebrew、wgetなど改定第2版P114の解析準備のところをやり直したところ、ダウンロードがうまくいきました。 ご教授いただき、ありがとうございました。

yuifu commented 2 years ago

よかったです🙇‍♂️