zhouyunyan / PIGC

The construction of reference gene catalog and metagenome-assembled genomes of pig gut microbiome.
25 stars 16 forks source link

在学习06_abundance过程中报错 #6

Open ylei14 opened 1 year ago

ylei14 commented 1 year ago

周老师您好: 在学习您PIGC文章的pipeline时,进行到下边的步骤: total_counts=$(cat abundance/${SampleID}.counts | grep -v -w '^Geneid' | awk '{a+=$NF}END{print a}') awk -v "counts=$total_counts" '{if(NR>1){print $1"\t"10000001000$NF/($(NF-1)*counts)}else{print $1"\t"$NF}}' abundance/${SampleID}.counts > abundance/${SampleID}.fpkm.txt 出现报错:fatal: division by zero attempted 我觉得可能是其中(NF-1)可能等于0导致的。 请问如何解决该问题。 下边是counts结果的部分截图: image 期待您的答复。

zhouyunyan commented 1 year ago

total_counts这一步成功运行了吗?

周云燕 @.***

 

------------------ 原始邮件 ------------------ 发件人: "zhouyunyan/PIGC" @.>; 发送时间: 2023年7月3日(星期一) 晚上9:43 @.>; @.***>; 主题: [zhouyunyan/PIGC] 在学习06_abundance过程中报错 (Issue #6)

周老师您好: 在学习您PIGC文章的pipeline时,进行到下边的步骤: total_counts=$(cat abundance/${SampleID}.counts | grep -v -w '^Geneid' | awk '{a+=$NF}END{print a}') awk -v "counts=$total_counts" '{if(NR>1){print $1"\t"10000001000$NF/($(NF-1)*counts)}else{print $1"\t"$NF}}' abundance/${SampleID}.counts > abundance/${SampleID}.fpkm.txt 出现报错:fatal: division by zero attempted 我觉得可能是其中(NF-1)可能等于0导致的。 请问如何解决该问题。 下边是counts结果的部分截图:

期待您的答复。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.***>

ylei14 commented 1 year ago

周老师,我昨晚尝试修改了一下,我得到的counts表表头是这样的 image 我想对于我的这张表而言,真真的数据行是从第三行开始的,于是我将awk那行命令更改为NR>2不知这样是否正确

ylei14 commented 1 year ago

total_counts是跑通了的

zhouyunyan commented 1 year ago

是的,根据你实际文件的情况进行修改,你这里是第三行开始的,我原来的表格应该没有第一行的那个注释信息。不确定对错话可以截取几行或者人为写几行数字进行测试,或者根据公式在excel算,不同方法都可以验证一下。

周云燕 @.***

 

------------------ 原始邮件 ------------------ 发件人: "zhouyunyan/PIGC" @.>; 发送时间: 2023年7月4日(星期二) 上午8:42 @.>; @.**@.>; 主题: Re: [zhouyunyan/PIGC] 在学习06_abundance过程中报错 (Issue #6)

周老师,我昨晚尝试修改了一下,我得到的counts表表头是这样的

我想对于我的这张表而言,真真的数据行是从第三行开始的,于是我将awk那行命令更改为NR>2不知这样是否正确

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

ylei14 commented 1 year ago

周老师,我还有一个疑问 我在做功能注释的时候发现您使用的kobas软件及kegg数据库的配置难度较大。请问您能否给我指导一下?

ylei14 commented 1 year ago

周老师好,kobas已经跑通。但是我在测试的时候发现用稍微大一点的基因集跑起来很慢很慢 用了100条蛋白序列到时很快 我想问问您在使用kobas的时候是否需要将非冗余蛋白集拆分 然后再跑kobas呢?

zhouyunyan commented 1 year ago

可以通过设置线程数加快速度。如果还是慢,可能数据集确实很大,也会用拆分的方式,不影响结果的。

周云燕 @.***

 

------------------ 原始邮件 ------------------ 发件人: "zhouyunyan/PIGC" @.>; 发送时间: 2023年7月5日(星期三) 下午3:26 @.>; @.**@.>; 主题: Re: [zhouyunyan/PIGC] 在学习06_abundance过程中报错 (Issue #6)

周老师好,kobas已经跑通。但是我在测试的时候发现用稍微大一点的基因集跑起来很慢很慢 用了100条蛋白序列到时很快 我想问问您在使用kobas的时候是否需要将非冗余蛋白集拆分 然后再跑kobas呢?

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

ylei14 commented 1 year ago

我这边是用了一个500M的蛋白集,我认为很小了 但是kobas跑了5个小时还没跑完 我设置的线程数是-n 40 我觉得可能是我数据库的配置存在问题。我的seq_pep和sqlite都下载的完整的数据库,我看网上有些人仅下载各自分析需要的物种对应的数据库部分。请问我的问题是否出在这里呢? image image

ylei14 commented 1 year ago

我的服务器硬件应当没有问题,因为20G数据的组装一般2个小时就跑完了,线程数也用的40