Closed otiai10 closed 6 years ago
@friend1ws この件ですが、ご存知の通り、現状のhotsubで1000並列をしようとして400処理できたところでhotsub側が止まってしまいました。ご迷惑おかけし申し訳ありません。
原因として現在考えられるのは、クライアント側(hotsubコマンドを打つ環境)が、それぞれのインスタンスに1000並列スレッドでTCPコネクションを貼ることになり、クライアント側のPCのスペック、とくにioが追いつかないためではないか、と考慮しています。
計算インスタンスにおける計算の終了を検知(し、結果のアップロードと自死をkick)する、という要件があるため、このような設計になっています。
この要件をクリアし、なおかつ上記の問題を解決するためには、クライアントによる終了検知ではなく、計算インスタンス自身の自律的なステータス報告を実現する必要があります。←副次的に飛行機問題も解決します。
わりとhotsubの根幹の設計の問題になるため、大きめの検証と実装が必要になります。
以前のBWAの検証では256並列、STARの検証では128並列までは実績があるので、max tasks みたいなものを設定して、「今は1000は無理です」とするのがよいかとも思ってます。
とりいそぎ、ご報告と、個人的な見解です。
CC @ken0-1n @aokad
[ ] CCLEから1000検体をDL(fastq)