De AI-onderzoekers van Apple hebben stilletjes drie nieuwe onderzoeken gepubliceerd die het gordijn opentrekken voor een grote nieuwe ambitie: het automatiseren van de meest vervelende en kritische delen van softwareontwikkeling. De artikelen, gepubliceerd op de Machine Learning Research-blog van Apple, beschrijven nieuwe AI-systemen die kunnen voorspellen waar bugs waarschijnlijk zullen optreden, automatisch volledige testplannen schrijven en zelfs de kapotte code zelf repareren. Dit is belangrijk omdat het niet zomaar een ‘AI schrijft code’-demo is. Apple bouwt een reeks gespecialiseerde AI-kwaliteitsingenieurs om fouten op te sporen en op te lossen voordat ze ooit je telefoon of computer bereiken, wat zou kunnen leiden tot enorme productiviteitswinsten en (hopelijk) stabielere software.
Paper 1: De AI-bugvoorspeller
De eerste studie, “Voorspelling van softwarefouten met behulp van het Autoencoder Transformer Model”, van onderzoekers Seshu Barma, Mohanakrishnan Hariharan en Satish Arvapallipakt het probleem van “buggy” -code aan. In plaats van een AI miljoenen regels code te laten lezen – een proces dat vatbaar is voor AI-‘hallucinaties’ – bouwden ze een ander soort tool. Hun model, ADE-QVAETgedraagt zich minder als een code-reviewer en meer als een data-analist. Het leest de code zelf niet. In plaats daarvan analyseert het statistieken over de codezoals de complexiteit, omvang en structuur ervan. Het is getraind om de verborgen patronen in deze statistieken te vinden die op betrouwbare wijze voorspellen waar bugs zich het meest waarschijnlijk verbergen. De resultaten zijn ongelooflijk effectief. Op basis van een standaard dataset voor het voorspellen van bugs heeft het model dit bereikt 98,08% nauwkeurigheid. Het scoorde ook hoog op het gebied van precisie en herinnering, een technische manier om te zeggen dat het buitengewoon goed is in het vinden van echte bugs en tegelijkertijd ‘false positives’ vermijdt die de tijd van ontwikkelaars verspillen.
Paper 2: De geautomatiseerde kwaliteitsingenieur
Het vinden van bugs is geweldig, maar hoe zit het met de berg papierwerk die gepaard gaat met het testen van software? De tweede studie, “Agentic RAG voor softwaretesten“, gaat hier rechtstreeks op in. De onderzoekers merken op dat kwaliteitsingenieurs geld uitgeven 30-40% van hun tijd gewoon ‘fundamentele testartefacten’ creëren – een bedrijfsterm voor testplannen, cases en scripts. Hun oplossing is een AI-agent die dit werk automatisch doet. Het systeem leest de vereisten en bedrijfslogica van het project en genereert vervolgens autonoom de volledige reeks testdocumenten. Dit systeem behoudt volledige “traceerbaarheid”, wat betekent dat het precies registreert welke testcase overeenkomt met welke bedrijfsvereiste. De impact wordt hier gemeten in tijd en geld. Het systeem liet een opmerkelijk resultaat zien 94,8% nauwkeurigheid in de gegenereerde tests. Bij validatieprojecten leidde dit tot een 85% reductie van de testtijdlijn en een 85% verbetering in de efficiëntie van de testsuite. Voor één project betekende dit dat de datum van ingebruikname met twee volle maanden moest worden versneld.
MIT-onderzoekers hebben een AI gebouwd die zichzelf leert leren
Paper 3: De AI-‘sportschool’ die codefixatie leert
Het derde en meest ambitieuze onderzoek is ‘Software-engineeringagenten en -verificateurs trainen met SWE-GymIn dit artikel wordt de logische volgende vraag gesteld: waarom alleen bugs vinden als je ze kunt oplossen? Om dit te doen heeft het team een ’sportschool’ voor AI-agenten gebouwd. Deze trainingsomgeving, SWE-Gymis een sandbox waaruit is opgebouwd 2.438 Python-taken uit de echte wereld getrokken uit 11 open-sourceprojecten. Elke taak wordt geleverd met een eigen uitvoerbare omgeving en testsuite. Hierdoor kan een AI-agent de volledige workflow voor ontwikkelaars oefenen: lees het bugrapport, schrijf de code om het probleem te repareren en voer vervolgens de tests uit om te zien of de oplossing daadwerkelijk werkte (en verder niets kapot maakte). De opleiding heeft zijn vruchten afgeworpen. AI-agenten getraind in deze “sportschool” 72,5% van de buggy-taken correct opgelosteen resultaat dat ruim 20 procentpunten beter presteerde dan eerdere benchmarks. Dit zijn gespecialiseerde tools, geen AI-codeerder voor algemene doeleinden. De onderzoekers voor de geautomatiseerde tests (Paper 2) merken op dat hun werk alleen gericht was op specifieke “Employee Systems, Finance en SAP-omgevingen”, wat betekent dat het nog geen one-size-fits-all oplossing is. Op dezelfde manier was de “gym” voor het oplossen van bugs gericht op Python-taken. Wat deze drie onderzoeken aantonen is een duidelijke, veelzijdige strategie. Apple probeert niet alleen maar één ‘doe-het-alles’-AI te bouwen. In plaats daarvan bouwen ze een team van AI-specialisten op: een analist die bugs voorspelt, een ‘paper-pusher’ die tests schrijft en een ‘monteur’ die bugs oplost. Deze aanpak zou de economie van softwareontwikkeling fundamenteel kunnen veranderen, wat zou leiden tot snellere tijdlijnen, lagere kosten en betrouwbaardere producten.





