Información general
mpiBlAST es una versión paralela de blast que permite su ejecución paralela en muchos nodos. Está instalada la versión 1.6.0. Compara secuencias de nucleótidos o proteínas con bases de datos y para estudiar relaciones funcionales y evolutivas así como identificar miembros de familas de genes.
Por razones de rendimiento no se ha instalado en los Itanium.
En nuestras pruebas falla si el fichero de secuencias tiene secuencias de más de aproxímadamente 3150 bp.
mpiBLAST está basado en la antigua versión de blast y usa la sintáxis antigua. Puedes verla en este link.
Bases de datos
El Servicio tiene instaladas varias bases de datos para uso compartido, consulta con los técnicos para más información. Si quieres actualizar o instalar más bases de datos contacta con los técnicos para evitar copias múltiples innecesarias.
Cómo ejecutar
Para enviar trabajos al sistema de colas recomendamos el uso del comando
send_blast
Este comando realiza una serie de preguntas y permite lanzar mpiBLAST o el BLAST normal, así como trocear el fichero de datos orginal para paralelizar sobre los datos o ajustar el tiempo de ejecución a Péndulo.
También puedes crear tú propio script de [intlink id=»19″ type=»post»]Torque[/intlink] incluyendo esta línea.
/software/bin/mpiblast -use-virtual-frags -use-parallel-write -output-search-stats
Por ejemplo, para usar blastx con la base de datos nr y obtener los resultados en formato XML y luego poder usarlos con [intlink id=»1493″ type=»post»]Blast2GO[/intlink]:
/software/bin/mpiblast -use-virtual-frags -use-parallel-write -output-search-stats -p blastx -d nr -m 7 -I T -i input_file.fas -o out_file.xml
Para tener un script de ejemplo puedes ejecutar un vez send_blast
. También tenemos programas para facilitar el uso de BLAST, consulta con los técnicos.
Es recomendable usar el flag -use-virtual-frags
para que no realice una copia local de la base de datos, esta se cargará íntegramente en memoria. Para Péndulo, que tiene poca memoria por nodo, es importante saber cuanta memoria va a necesitar nuestro cálculo para que entre perféctamente (ver informe sobre rendimiento).
Es necesario formatear la base de datos en fragmentos y asignar un fragmento a cada core (cpu). Recomendamos usar las bases de datos instaladas por los técnicos. Para fomatear las bases de datos nr en 6 trozos por ejemplo, está el comando:
/software/bin/mpiformatdb -N 6 -i nr -o T
El número de cores a solicitar para el cálculo con mpiBLAST a de ser igual al número de fragmentos de la base de datos más dos, en este caso solicitaríamos 8 cores.
mpiBLAST escala muy bien. Hemos realizado unos test y benchmark que nos puede servir para predecir el uso de memoria y cpu de los cálculos, que hemos plasmado en el informe sobre el rendimiento de mpiBLAST.
Rendimiento
Para preparar los cálculos puede ser muy instructivo el informe sobre rendimiento de mpiBLAST. También hemos comparado mpiBLAST con el BLAST normal de NCBI y gpuBLAST. Se pueden encontrar los resultados en el blog del Servicio.
Más información
Para más información página web de mpiBLAST. Aquí se pueden encontrar manuales y tutoriales.
También está instaldado [intlink id=»1493″ type=»post»]Blast2GO[/intlink].
Informe sobre el rendimiento de mpiBLAST.