Información general
IDBA-UD 1.1.1 is a iterative De Bruijn Graph De Novo Assembler for Short Reads Sequencing data with Highly Uneven Sequencing Depth. It is an extension of IDBA algorithm. IDBA-UD also iterates from small k to a large k. In each iteration, short and low-depth contigs are removed iteratively with cutoff threshold from low to high to reduce the errors in low-depth and high-depth regions. Paired-end reads are aligned to contigs and assembled locally to generate some missing k-mers in low-depth regions. With these technologies, IDBA-UD can iterate k value of de Bruijn graph to a very large value with less gaps and less branches to form long contigs in both low-depth and high-depth regions.
Cómo usar
Para enviar trabajos a la cola se puede usar el comando
send_idba-ud
que realiza unas preguntas para configurar el cálculo.
Rendimiento
IDBA-UD se ejecuta en paralelo con un buen rendimiento medido hasta por lo menos 8 cores. Por encima no se han medido mejoras apreciables. El benchmark se ha realizado con --mimk 40 --step 20
. Por algún motivo este cálculo tiene un salto cualitativo apreciable de 1 a dos cores. Si se pone un step de 10 el rendimiento a varios cores empeora como se observa en la segunda tabla.
1 core como base | 2 cores como base | ||||
Cores | Tiempo (s) | Aceleración | Rendimiento (%) | Aceleración | Rendimiento (%) |
1 | 480 | 1 | 100 | ||
2 | 296 | 1.6 | 81 | 1.0 | 100 |
4 | 188 | 2.6 | 64 | 1.6 | 79 |
8 | 84 | 5.7 | 71 | 3.5 | 88 |
12 | 92 | 5.2 | 43 | 3.2 | 54 |
El segundo benchmark se ha realizado con un fichero mayor, con 10 millones de bases y las opciones --mink 20 --step 10 --min_support 2
. Observamos un comportamiento más regular que en el benchmark anterior y como la paralelización es buena hasta los 4 cores.
Cores | Tiempo (s) | Aceleración | Rendimiento (%) |
1 | 13050 | 1 | 100 |
2 | 6675 | 2.0 | 98 |
4 | 3849 | 3.4 | 85 |
8 | 3113 | 4.2 | 52 |
16 | 2337 | 5.6 | 35 |
20 | 2409 | 5.4 | 27 |
Más información
Página web de IDBA-UD.