Onderzoekers van Stanford University hebben Evo ontwikkeld, een genomisch taalmodel dat is getraind op bacteriële genomen en dat in staat is nieuwe eiwitten en nucleïnezuursequenties te ontwerpen. De ontwikkeling van Evo maakt gebruik van het gemeenschappelijke bacteriële genomische kenmerk van genen met gerelateerde functies die samen clusteren. Deze genclusters worden vaak omgezet in een enkel boodschapper-RNA, waardoor bacteriën hele biochemische routes efficiënt kunnen reguleren. De onderzoekers trainden Evo met behulp van een uitgebreide verzameling bacteriële genomen. Net als bij grote taalmodellen kreeg Evo de taak om de volgende basis in een reeks te voorspellen en werd hij beloond voor nauwkeurige voorspellingen. Dit generatieve model kan nieuwe reeksen produceren op basis van aanwijzingen, waardoor een zekere mate van willekeur in de uitvoer wordt geïntroduceerd. Met deze opzet kan Evo patronen op nucleotideniveau koppelen aan de genomische context op kilobaseschaal. Wanneer Evo wordt gevraagd om een groot segment genomisch DNA, interpreteert het dit en genereert het een geschikte genomische output. Het team veronderstelde dat het verstrekken van Evo met een bekend gen als prompt zou resulteren in outputs die coderen voor eiwitten met gerelateerde functies. Een belangrijke vraag was of Evo sequenties zou genereren voor reeds bekende eiwitten of minder voorspelbare, nieuwe resultaten zou produceren. Bij de eerste tests werd Evo gevraagd fragmenten van bekende eiwitgenen te gebruiken. Gegeven 30 procent van een bekende eiwitgensequentie, voltooide Evo 85 procent van de rest. Met 80 procent van de reeks werd de gehele ontbrekende reeks hersteld. Toen een enkel gen uit een functioneel cluster werd verwijderd, identificeerde en herstelde Evo het ontbrekende gen nauwkeurig. Evo’s uitgebreide trainingsgegevens zorgden ervoor dat het kritische eiwitregio’s identificeerde. Sequentieveranderingen vonden doorgaans plaats in gebieden waar variabiliteit wordt getolereerd, wat aangeeft dat het systeem evolutionaire grenzen aan genetische veranderingen incorporeerde. Om het vermogen van Evo om nieuwe resultaten te genereren te testen, gebruikten onderzoekers bacteriële toxines, die vaak samen met anti-toxines worden gecodeerd. Ze voorzagen Evo van een toxine dat slechts licht verwant was aan bekende antitoxinen, waarbij een bekend antitoxine ontbrak, en filterden reacties eruit die leken op bekende antitoxinegenen. Door tien producten van Evo te testen, konden er vijf enige toxiciteit redden en twee herstelden volledig de groei van de bacteriën die het toxine produceerden. Deze twee antitoxinen vertoonden slechts ongeveer 25 procent sequentie-identiteit met bekende antitoxinen. Ze werden samengesteld uit delen van 15 tot 20 individuele eiwitten; één voorbeeld vereiste patching van 40 bekende eiwitten. De mogelijkheden van Evo reikten verder dan alleen eiwitten. Wanneer toegepast op een toxine met een op RNA gebaseerde remmer, genereerde het systeem DNA-coderende RNA’s met correcte structurele kenmerken, ondanks dat het sequenties had die geen verband hielden met bekende RNA-remmers. Bij een soortgelijke test waren remmers van het CRISPR-systeem betrokken. Het team filterde de resultaten zodanig dat ze alleen eiwitcoderende sequenties bevatten die niet lijken op bekende eiwitten. Hiervan remde 17 procent de CRISPR-functie. Twee van deze remmers hadden geen gelijkenis met bekende eiwitten en verwarde software die was ontworpen voor het voorspellen van de 3D-eiwitstructuur. Evo lijkt in staat geheel nieuwe, functionele eiwitten te genereren zonder rekening te houden met de eiwitstructuur. De onderzoekers gaven Evo 1,7 miljoen individuele genen van bacteriën en hun virussen, resulterend in 120 miljard basenparen van door AI gegenereerd DNA, inclusief zowel bekend als potentieel nieuw genetisch materiaal. Deze aanpak vertaalt zich mogelijk niet in complexere genomen zoals gewervelde dieren, die doorgaans geen genen met gerelateerde functies clusteren en ingewikkelder genstructuren bezitten. Deze methode pakt andere problemen aan dan gerichte ontwerpinspanningen, zoals de ontwikkeling van plasticverterende enzymen. De bevindingen zijn gepubliceerd in Natuur in 2025.





