Imec realiseert een nieuwe doorbraak in big-data-gebaseerde DNA-analyses. Dankzij de nieuwste versie van haar software, genaamd elPrep5, kunnen de gigabytes aan data uit DNA-stalen nu in enkele uren tijd informatie opleveren over mogelijke genetische afwijkingen. Dat is 8 tot 16 keer sneller dan met de meest gangbare software en kan op een klassieke server uitgevoerd worden. Het opent daarmee mogelijkheden voor hospitalen om zelf dergelijke analyses uit te voeren in plaats van ze uit te moeten besteden aan gespecialiseerde analyselabo’s. Verscheidene industriële partners tonen al interesse om de nieuwe elPrep software in gebruik te nemen.
Het snel en goedkoop kunnen analyseren van genetische informatie is een van de essentiële vereisten van de toekomstige gezondheidszorg waar ziektepreventie, vroege diagnose en patiëntgerichte therapie centraal staan. De kost van DNA-analyses bereikte het voorbije decennium al het punt waardoor ze kunnen ingezet worden als standaard diagnose-instrument. De doorlooptijd, tot 48 uur voor een volledig genoom, bleef echter een struikelblok.
DNA-analyse bestaat ruwweg uit twee delen. Ten eerste het omzetten van een fysiek DNA-staal in een digitale reeks ‘letters’ (baseparen) waaruit het DNA is opgebouwd. Ten tweede het analyseren van die digitale DNA-gegevens om bijvoorbeeld te kijken of er genetische afwijkingen in optreden. In dit hele proces wordt de fysieke DNA-streng in stukjes geknipt en vermenigvuldigd. Het digitaliseren ervan (sequencen) levert Gigabites aan data op waaruit de oorspronkelijke streng dan weer moet opgebouwd worden om hem vervolgens te kunnen controleren op afwijkingen (in technische termen ook wel variant calling genoemd). Een complex proces wat veel rekenkracht en big-data analysemethodes vraagt.
De elPrep software van imec is toonaangevend in het automatiseren van deze laatste complexe stappen. Al in de vorige versie, elPrep4, behaalde imec een aanzienlijke tijdswinst in het weer aan elkaar puzzelen van de losse stukjes gedigitaliseerd DNA. En dat in vergelijking met de genome analysis toolkit (GATK), de software van het Amerikaanse Broad Institute die aanzien wordt als de referentie in de sector. Nu realiseert imec opnieuw een grootteorde tijdswinst ten opzichte van diezelfde GATK standaard door in elPrep5 ook de laatste stap, variant calling, te automatiseren. Een volledig genoom analyseren kan hierdoor in minder dan zes uur in plaats van twee dagen. Uitgebreide testen op elPrep5 tonen aan dat de software in die veel kortere termijn een identieke uitkomst oplevert als GATK.
De belangrijkste reden waarom imec met elPrep dergelijke snelheden haalt, is doordat de software slechts eenmaal door alle data leest om vervolgens alle bewerkingen uit te voeren. Heel die tijd wordt zoveel mogelijk data in het geheugen gehouden. Andere software laadt telkens slechts fracties van de data in het geheugen, waardoor het meerdere malen de oorspronkelijke data moet scannen en daardoor aan snelheid moet inboeten.
Charlotte Herzeel, onderzoeker bij imec: “Dankzij onze innovatieve aanpak kunnen de complexe big-data berekeningen voor een DNA analyse nu sneller dan ooit uitgevoerd worden en dat zonder supercomputer, maar op een klassieke server die in de meeste hospitalen wel voorhanden is. Dit heeft als voordeel dat hospitalen de volledige analyses zelf zouden kunnen uitvoeren en ook hun dagelijkse werking veel efficiënter wordt. Een dokter kan ’s avonds een analyseberekening opstarten en de volgende ochtend al de resultaten bespreken met de patiënt. En, omdat hospitalen vaak cloudoplossingen huren zorgt de snellere verwerking ervoor dat ook de kost substantieel vermindert.”
ElPrep 5 mikt op gebruikers in de farmaceutische industrie, wetenschappelijk onderzoek, sequencing service providers, medische laboratoria en hospitalen.