ABySS

Informazio orokorra

1.3.2 ABySS bertsioa (Assembly By Short Sequences). ABySS is a de novo, parallel, paired-end sequence assembler that is designed for short reads. ABySS paraleloan exekutatu daiteke.

Begiratu ere instalatuta dagoen [intlink id=”6059″ type=”post”]velvet[/intlink] eta biak konparatzen publikatu dugun artikulua.

Nola erabili

Exekutableak /software/abyss/bin karpetan daude. Kolako skriptetean exekutatzeko gehitu adibidez:

/software/abyss/bin/abyss-pe [abyss-pe opzioak]

Errendimendua

Begiratu ere instalatuta dagoen [intlink id=”6059″ type=”post”]velvet[/intlink] eta biak konparatzen publikatu dugun artikulua.

Paralelizazioa

Abysseko benchmark batzuk egin dira. Benchmarkak HeSeq2000 NGS Illumina batek emandako datuegin egin dira 100 bp sekuentzia bakoitzeko. 1. taulan ikus dezakegu nola ABySSek eskalatzen duen kore kopuruaren arabera, ikus daitekeen bezala ondo paralelizatzen du 8 kore arte.

Taula 1. abyss-pe programaren exekuxio denbora segundutan kore kopuruaren arabera.
Koreak 2 4 8 12 24
Denbora (s) 47798 27852 16874 14591 18633
Azelerazioa 1 1.7 2.8 3.3 2.6
Errendimendua (%) 100 86 71 55 21

Exekuzio denbora

Exekuxio denbora era neurtu dugu datu tamainaren funtzioan. 2. taulan erakusten da nola milioi bat sekuentziatik 10 milioietara pasatzean denbora ere 10 aldiz handiagoa dela. 10 milioitin 100 milioi sekuentzietara pasatzean denbora 10 eta 20 artean handitzen da. Beraz, exekuzio denboraren konportamendua gutxi gorabehera lineala da.

Taula 2. abyss-pe programaren exekuzio denbora segundutan sekuentzia kopuruaren arabera en 2, 4 y 8 koreentzako.
Sekuentziak 10e6 10e7 10e8
Denbora 2 koretan (s) 247 2620 47798
Denbora 4 koretan (s) 134 1437 27852
Denbora 8 koretan (s) 103 923 1687

RAM memoria

Programa hauetan exekuzio denbora baino garrantzitzua RAM memoria da, oso handia izan baitaiteke. 3. taulan ikusten dugu nola RAM memoria handitzen den sekuentzia kopuruaren funtzioan. Neurtutako balioen logaritmoak ere erakusten ditugu hauek erabili baititugu erregresio lineala egiteko. Kalkuluan 12 koretan egin dira.

Taula 3. abyss-pe programak erabilitako RAM memoria sekuentzia kopuruaren funtzioan. Balioen logaritmoak ere erakusten dira.
Sekuentziak 10e6 5*10e6 10e7 5*10e7 10e8
RAM (GB) 4.0 7.6 11 29 44
log(sekuentziak) 6 6.7 7 7.7 8
log(RAM) 0.60 0.88 1.03 1.46 1.65

Neurtutako balioak ondoko ekuaziora doitu ditugu non (s) sekuentzia kopurua da eta memoria GBetan ematen da:

log(RAM)=0.53*log(s)-2.65

edo beste era batean

RAM=(s^0.53)/447

Ondorioak

RAM erabilera txikiagoa da beste ensanbladorekin alderatuta.  [intlink id=”6059″ type=”post”]Velvet[/intlink] adibidez (ikus ere Velvet performance in the machines of the Computing Service of the UPV/EHU txostena eta biak konparatzen publikatu dugun artikulua. Gainera, ABySS MPI erabiltzen du paralelizazioa lortzeko eta honi esker hainbat nodoen RAM memoria gehitu dezakegu kalkulu handiagoak egin ahal izateko.

Informazio gehiago

ABySSeko web orrialdea.
[intlink id=”6059″ type=”post”]Velvet[/intlink] ensambladorea.
hpc blogean sarrera: Velvet performance in the machines of the Computing Service of the UPV/EHU.
Velvet performance in the machines of the Computing Service of the UPV/EHU txostena.