Open utterances-bot opened 8 months ago
## Descargar el Genoma
download.file("ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR156/080/SRR15616380/SRR15616380_1.fastq.gz", "SRR15616380_1.fastq.gz")
download.file("ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR156/080/SRR15616380/SRR15616380_2.fastq.gz", "SRR15616380_2.fastq.gz")
## Instalar R.util
install.packages("R.utils")
library(R.utils)
## Descomprimir nuestras secuencias
gunzip("SRR15616380_1.fastq.gz")
gunzip("SRR15616380_2.fastq.gz")
# sudo apt update
sudo apt install jellyfish
jellyfish count -t 8 -C -m 19 -s 1G -o 19mer_out --min-qual-char=? SRR15616380_1.fastq ## Solo un read
jellyfish histo -o 19mer_out.histo 19mer_out
### Con ambos reads
jellyfish count -t 8 -C -m 19 -s 1G -o 19mer_out --min-qual-char=? *.fastq
## Cargar el histograma
dataframe19 <- read.table("19mer_out.histo")
## Plot de profundidad vs Frecuencia
plot(dataframe19[2:200,], type="l")
## Plot con puntos y linea
plot(dataframe19[2:200,], type="l") # traza el gráfico de línea
points(dataframe19[2:200,]) # traza los puntos de datos del 2 al 100
## Determinar el pico inspeccionado la region
dataframe19[40:80,] ## detectamos la profundidad en 60
## Calculas el tama;o del genoma
sum(as.numeric(dataframe19[2:200,1]*dataframe19[2:200,2]))/60
## ~ 669 kb
Realizar el conteo de k-mers
considerando tamaños diferentes de K-mers
usando las secuencias proporcionadas para este modulo 7 :
download.file("ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR156/080/SRR15616380/SRR15616380_1.fastq.gz", "SRR15616380_1.fastq.gz")
download.file("ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR156/080/SRR15616380/SRR15616380_2.fastq.gz", "SRR15616380_2.fastq.gz")
Para ello debe utilizar la terminal de WSL (Windows Subsystem Linux)
instalando el programa Jellyfish:
sudo apt update
sudo apt install jellyfish
Finalmente deben proporcionar un plot de distribucion de tamaños de kmeros y el tamaño promedio de genoma que calcularon entre los diferentes tamaños de kmers:
Ejemplo plot:
Ejemplo ggplot2:
Hola Fransisco,
para correr el perfil de cameros y visualizar el histograma, porque no se usa el output de trim_galore, con el fastq trimado? Te pregunto porque con el pipeline sin el archivo trimado mi histograma es diferente.
@IVANmt7 Hola Ivan en ese programa el tamaño de los kmers
considerado son mas pequeños, con jellyfish
puedes ampliar el tamaño de k-mers
y esta optimizado para este análisis. Si te preocupa la forma del histograma , recuerda que la distribucion solo es un paso para calcular la profundidad media y al momento de realizar la división con la area bajo de curva se estandariza el calculo del tamaño de genoma. Entonces si haces el trimado o no, puedes ver que las frecuencias bajas que corresponde a los errores estan en 1X de profundidad y esa parte no se utiliza para el cálculo de tamaño de genoma.
Tamaño de genoma promedio : 660 kb
Luis Alberto Allccahuaman Huauya
https://1drv.ms/b/s!AijcEQDIGC0cg9A5RpnzWE-4EPGUKA?e=rud7An
Jose Juan Torres
Desafío conteo de K-mers
Trabajo presentado por Ada Carola Mamani Pereyra https://drive.google.com/file/d/1sYxzBx4rXSkJ2vnVvJYQEDsHXXQHDFgt/view?usp=sharing
Tarea de Douglas Sánchez Zárate https://drive.google.com/file/d/1P587DsC1XBVfuC4GEOXvaPLeEIbdHcuA/view?usp=drive_link
Tarea de Douglas Sánchez (con acceso) https://drive.google.com/file/d/1P587DsC1XBVfuC4GEOXvaPLeEIbdHcuA/view?usp=sharing
Tarea de Luz Fernanda Dominguez Mendoza: https://drive.google.com/file/d/1Zcj8htB8nre3-1pKWevqYRvdF5Pn63pv/view?usp=sharing
Carlos Toro
Juan López Villafuerte Tarea_Kmer.docx
Para el análisis se utilizó ambos fastq.
Tamaño promedio del genoma con K-mers de 21: 638 kb Tamaño promedio del genoma con K-mers de 23: 631 kb
Jorge Amílcar Giraldo Chávez
Tarea de Camila Cubas Céspedes Conteo de K-mers.docx
Se considero ambos reads para el conteo de K-mers en el codigo de jellyfish
Desafio - Integrantes: Báslavi Marisbel Cóndor Luján y Juan Carlos Francia Quiroz
library(R.utils)
library(R.utils)
setwd("~/Documentos/flytek/R")
gunzip("SRR6715631.fastq.gz")
data21 <- read.table("21mer_out.histo")
plot(data21[1:400,], type="l") plot(data21[2:400,], type="l")
plot(data21[5:200,],type="l", main = "Kmer = 21")
points(data21[5:200,]) # traza los puntos de datos del 5 al 200 summary(data21[30:50,2]) data21[30:50,] profundidadk21 <- 36
sum(as.numeric(data21[2:200,1]data21[2:200,2])) sum(as.numeric(data21[2:200,1]data21[2:200,2]))/36
data23 <- read.table("23mer_out.histo")
plot(data23[1:400,], type="l") plot(data23[2:400,], type="l")
plot(data23[5:200,],type="l", main = "Kmer = 23")
plot(data23[5:200,], type="l")
points(data23[5:200,]) # traza los puntos de datos del 5 al 200 summary(data23[30:50,2]) data21[30:50,] profundidadk23 <- 36
sum(as.numeric(data23[2:200,1]data23[2:200,2])) sum(as.numeric(data23[2:200,1]data23[2:200,2]))/36
download.file("ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR156/080/SRR15616380/SRR15616380_1.fastq.gz", "SRR15616380_1.fastq.gz")
install.packages("R.utils") library(R.utils)
gunzip("SRR15616380_1.fastq.gz")
dataframe18 <- read.table("18mer_out.histo")
dataframe19 <- read.table("19mer_out.histo")
dataframe20 <- read.table("20mer_out.histo")
dataframe18[40:80,] ## detectamos la profundidad en 61 summary(dataframe18[40:80,2])
dataframe19[40:80,] ## detectamos la profundidad en 60 summary(dataframe19[40:80,2])
dataframe20[40:80,] ## detectamos la profundidad en 59 summary(dataframe20[40:80,2])
sum(as.numeric(dataframe18[2:200,1]*dataframe19[2:200,2]))/61
sum(as.numeric(dataframe19[2:200,1]*dataframe19[2:200,2]))/60
sum(as.numeric(dataframe20[2:200,1]*dataframe19[2:200,2]))/59
par(mfrow=c(1,3))
plot(dataframe18[2:200,], type="l",col = "red") # traza el gráfico de línea points(dataframe18[2:200,],col = "red") # traza los puntos de datos del 2 al 100 abline(v=61,col = "red") title("K-mere = 18 - Genome = 658.3 kb")
plot(dataframe19[2:200,], type="l", col = "blue") # traza el gráfico de línea points(dataframe19[2:200,], col = "blue") # traza los puntos de datos del 2 al 100 abline(v=60, col = "blue") title("K-mere = 19 - Genome = 669.3 kb")
plot(dataframe20[2:200,], type="l", col = "black") # traza el gráfico de línea points(dataframe20[2:200,], col = "black") # traza los puntos de datos del 2 al 100 abline(v=59, col = "black") title("K-mere = 20 - Genome = 680.6 kb")
https://drive.google.com/file/d/1OlXBI0tQI0AYBGt4cg8GwSX63WeBjKfF/view?usp=sharing
par(mfrow=c(1,1)) plot(dataframe18[2:200,], type="l", col = "red") abline(v=61,col = "red") lines(dataframe19[2:200,], type="l", col = "blue") abline(v=60, col = "blue") lines(dataframe20[2:200,], type="l", col = "black") abline(v=59, col = "black") legend(95,20000, legend = c("K-mere = 18 - Genome = 658.3 kb","K-mere = 19 - Genome = 669.3 kb","K-mere = 20 - Genome = 680.6 kb"),col = c("red","blue","black"),lty=1,cex = 1)
https://drive.google.com/file/d/14xwZXjj9kHXJ4qXfDq6tVjgOoOKmBh1p/view?usp=sharing
Cynthia Julcapoma Aiko Vigo Angelica Delgado
##EJECUTARLO EN LA TERMINAL CONSIDERANDO SOLO 4 NUCLEOS -- 22
# jellyfish count -t 4 -C -m 22 -s 1G -o 22mer_out --min-qual-char=? SRR15616380_1.fastq
## CREAR EL HISTOGRAMA
# jellyfish histo -o 22mer_out.histo 22mer_out
##Creacion del histograma - 22 kmers
dataframe22 <- read.table("22mer_out.histo")
plot(dataframe22[2:200,], type="l", main="22-mers - 704.5 kb", xlab="depth", ylab="Frecuency")
dataframe22[40:80,]
abline(v=57,col = "red")
##Tamaño de genoma
sum(as.numeric(dataframe19[2:200,1]*dataframe19[2:200,2]))/57
# 704481.1
##EJECUTARLO EN LA TERMINAL CONSIDERANDO SOLO 4 NUCLEOS -- 26
# jellyfish count -t 4 -C -m 26 -s 1G -o 26mer_out --min-qual-char=? SRR15616380_1.fastq
## CREAR EL HISTOGRAMA
# jellyfish histo -o 26mer_out.histo 26mer_out
##Creacion del histograma - 26 kmers
dataframe26 <- read.table("26mer_out.histo")
plot(dataframe26[2:200,], type="l", main="26-mers - 772.2 kb", xlab="depth", ylab="Frecuency")
dataframe26[40:80,]
abline(v=52,col = "red")
##Tamaño de genoma
sum(as.numeric(dataframe19[2:200,1]*dataframe19[2:200,2]))/52
# 772219.7
##Trabajo conteo de K-mers (Módulo 7) ##Integrantes: Joan Villamil, David Machuca, Shirlay Valeriano
download.file("ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR156/080/SRR15616380/SRR15616380_1.fastq.gz", "SRR15616380_1.fastq.gz")
library(R.utils)
gunzip("SRR15616380_1.fastq.gz")
data.frame23 <- read.table("23mer_out.histo")
plot(data.frame23[2:200,], type="l", xlab="Profundidad", ylab="Frecuencia") title(main = "K-mer=23") mtext("Tamaño del genoma ~ 674 Kb", side = 3, line = 1, adj = 0.5) indice_maximo <- which.max(data.frame23[2:200, "V2"]) abline(v = indice_maximo, col = "red", lty = 2)
summary(data.frame23[40:80,2])
profundidad <- 56
sum(as.numeric(data.frame23[2:200,1]*data.frame23[2:200,2]))/profundidad
[1] 674623.1 ## Tamaño aprox del genoma: ~ 674 Kb
datos <- read.csv("https://raw.githubusercontent.com/FranciscoAscue/Rgenomics/master/data.csv")
library(dplyr) library(ggplot2)
data<-datos%>%filter(Index==5)
ggplot(data=data, aes(x=Genero, y=Altura, fill=Genero))+ labs(title= "Distribución de la altura de acuerdo al género", x="Género", y="Altura", fill="Leyenda")+ geom_boxplot(alpha=0.7) + theme_gray() + geom_jitter() + facet_wrap(~Genero, scales="free")
ggplot(data=data,
aes(x=Genero, y=Peso, fill=Genero))+
labs(title= "Distribución del peso de acuerdo al género",
x="Género", y="Peso", fill="Leyenda")+
geom_boxplot(alpha=0.7) +
theme_gray() +
geom_jitter() +
facet_grid(~Genero, scales="free", space = "free")
Grupo Integrado por:
SCRIP DESAFÍO 1
1.- PRIMERA PARTE: SELECCIÓN DE SUBCONJUNTO DE DATOS CON Index 5 install.packages("dplyr") library(dplyr)
install.packages("BiocManager") library(BiocManager)
BiocManager::install("ggplot2") library(ggplot2)
datos <- read.csv("https://raw.githubusercontent.com/FranciscoAscue/Rgenomics/master/data.csv") datos <- read.csv("https://raw.githubusercontent.com/FranciscoAscue/Rgenomics/master/data.csv")
datos <- read.csv("https://raw.githubusercontent.com/FranciscoAscue/Rgenomics/master/data.csv")
filaIndex5 <- datos %>% filter(Index == 5)
2.- SEGUNDA PARTE: GRÁFICO CON ggplot library(ggplot2)
ggplot(data = datos, aes(x=Genero, y=Peso, fill=Genero)) + geom_boxplot() + labs(title = "Diagrama de Cajas y Bigotes de Femeninos y Masculinos")
Desafío tamaño genoma Kmers Ricardo Aldahir Calle Cordova https://drive.google.com/file/d/1-MebWQUqNmqM2XlMUk2HS0rxkiVro_iK/view?usp=sharing
Desafío Index 5 Ricardo Aldahir Calle Cordova
Script library(ggplot2)
data <- read.csv("https://raw.githubusercontent.com/FranciscoAscue/Rgenomics/master/data.csv")
grupofilaindex5 <- data %>% filter(Index == 5)
ggplot(data = data, aes(x=Genero, y=Peso, fill=Genero)) + geom_boxplot() + labs(title = "Plot para grupos Femeninos y Masculinos en Index 5")
Resultado plot: https://drive.google.com/file/d/1rgeijsbbdodTvqB_EIMvlZoprX_zNyXN/view?usp=sharing
Scrip R: https://drive.google.com/file/d/1k8GIszP1lgUGLni-ItWpLx6Z4VCCHSYq/view?usp=sharing
Tarea del módulo 7: Conteo de Kmeros
Buenas noches, en caso de que no haya visto mi tarea la comparto por este correo grupal. Integrantes: Gerald Moreno Grecia Pavia Milagros Leiva https://github.com/FranciscoAscue/Rgenomics/issues/4#issuecomment-1865503326
Obtener Outlook para Androidhttps://aka.ms/AAb9ysg
From: Francis-mc @.> Sent: Sunday, December 31, 2023 11:20:06 PM To: FranciscoAscue/Rgenomics @.> Cc: gmoreno993 @.>; Comment @.> Subject: Re: [FranciscoAscue/Rgenomics] Rgenomics/modulo7 (Issue #4)
Tarea del módulo 7: Conteo de Kmeros Conteo.de.Kmeros.png (view on web)https://github.com/FranciscoAscue/Rgenomics/assets/52510911/12011761-4f16-4307-b491-4f8d8375a904
— Reply to this email directly, view it on GitHubhttps://github.com/FranciscoAscue/Rgenomics/issues/4#issuecomment-1873144814, or unsubscribehttps://github.com/notifications/unsubscribe-auth/BEXZU7JV3UEHQQOETU7LDGLYMI2PNAVCNFSM6AAAAAA6UQWEZ6VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTQNZTGE2DIOBRGQ. You are receiving this because you commented.Message ID: @.***>
Hola he utilizado esto comandos para instalar fastqc.
Paso 1 sudo apt-get update -y
Paso 2 sudo apt-get install -y fastqc
Genomics web - Fundamentos de NGS
https://franciscoascue.github.io/Rgenomics/modulo7.html