Apple-onderzoekers verfijnen Starschat-Beta tot Uicoder voor UI-codering

Apple-onderzoekers ontwikkelden een methode om een open-source groot taalmodel, Starschat-Beta, te trainen om SwiftUI-gebruikersinterface-code te genereren door een grote synthetische gegevensset te maken en iteratief te raffineren door geautomatiseerde feedback.

Het onderzoek, gedetailleerd in de paper “Uicoder: Finetuning grote taalmodellen om gebruikersinterfacecode te genereren via geautomatiseerde feedback”Adressen uitdagingen waarmee grote taalmodellen (LLMS) worden geconfronteerd bij het genereren van syntactisch correcte en goed ontworpen gebruikersinterface (UI) -code. LLMS tentoonstelling tentoonstelling tentoonstelling in verschillende schrijftaken, waaronder creatief schrijven en algemene codering, maar om moeilijkheden te maken met UI-code-generatie. Code kan minder dan één procent van de totale voorbeelden vormen.

Om deze gegevens spaarzaamheid te overwinnen, hebben onderzoekers hun aanpak geïnitieerd met Starschat-Beta, een open-source LLM die speciaal is ontworpen voor coderingstaken. Ze voorzagen Starschat-beta van een verzameling UI-beschrijvingen, die het model instrueren om een substantiële synthetische dataset te genereren die SwiftUI-programma’s omvatten die zijn afgeleid van deze beschrijvingen. Deze synthetische generatiefase was gericht op het produceren van een brede initiële set UI -codevoorbeelden.

Na het genereren van code onderging elk programma een tweetraps validatieproces. Eerst werd de code via een SWIFT -compiler uitgevoerd om de uitvoerbare status te verifiëren. Ten tweede analyseerde GPT-4V, een model-taalmodel, de gecompileerde interface, waarbij deze werd vergeleken met de oorspronkelijke UI-beschrijving om de trouw en correctheid te beoordelen.

Uitgangen die niet werden gecompileerd, werden als irrelevant geacht voor de beschrijving, of waren duplicaten systematisch weggegooid. De resterende uitgangen, die aan de compilatie- en relevantiecriteria hebben voldaan, vormden een hoogwaardige trainingsset. Deze verfijnde gegevensset werd vervolgens gebruikt om het starchat-beta-model te verfijnen.

De onderzoekers hebben een iteratief verfijningsproces geïmplementeerd en de hele generatie en validatiecyclus meerdere keren herhalen. Elke iteratie toonde een verbetering van het vermogen van het model om SwiftUI-code te genereren, die op zijn beurt heeft bijgedragen aan het creëren van nog schonere en nauwkeurigere datasets voor daaropvolgende verfijningsrondes. Deze continue feedback -lus stond centraal in de progressieve verbetering van het model.

Na het voltooien van vijf volledige rondes van dit iteratieve proces, hadden de onderzoekers ongeveer 996.000 verschillende Swiftui -programma’s verzameld. Deze uitgebreide gegevensset werd gebruikt om het uiteindelijke model te trainen, genaamd Uicoder. Tests uitgevoerd op Uicoder gaven aan dat het consequent interfaces samenstelde en produceerde die aanzienlijk dichter bij de oorspronkelijke aanwijzingen waren afgestemd in vergelijking met het initiële starchat-beta-model. Geautomatiseerde statistieken en menselijke evaluaties bevestigden beide de substantiële outperformance van Uicoder van het base starchat-beta-model bij het genereren van SwiftUI-code.

Uicoder demonstreerde ook mogelijkheden die vergelijkbaar zijn met GPT-4 in termen van de algehele codekwaliteit, en overtrof GPT-4 met name in zijn compilatiesucces. Een belangrijke bevinding uit de studie was de toevallige uitsluiting van Swiftui-code van de initiële trainingsgegevens van Starchat-Beta. Starchat-Beta werd voornamelijk getraind op Three Corpora: TheStack, een grote dataset van permissief gelicentieerde code-repositories met 250 miljard tokens; gekruiste webpagina’s; en Openassistant-Guanaco, een kleinere dataset voor instructies.

De onderzoekers hebben vastgesteld dat Swift Code Repositories onbedoeld werden uitgesloten tijdens het creëren van de STESTACK -gegevensset. Bovendien bleek uit handmatige inspectie dat de OpenAssistant-Guanaco-gegevensset slechts één voorbeeld van Swift-code van tienduizend inzendingen bevatte in zijn responsveld. Onderzoekers stelden de hypothese dat alle snelle voorbeelden van Starchat-Beta tijdens de initiële training waarschijnlijk afkomstig waren van gekruiste webpagina’s, die meestal van lagere kwaliteit zijn en minder gestructureerd zijn dan repositorycode.

Deze onbedoelde uitsluiting impliceert dat de prestaties van Uicoder niet te wijten waren aan de herverwerking van reeds bestaande Swiftui-voorbeelden uit de basistraining, omdat er vrijwel geen waren. In plaats daarvan kwamen de verbeteringen volledig voort uit de zelf gegenereerde, rigoureus samengestelde datasets ontwikkeld via Apple’s geautomatiseerde feedback-lus.

Dit resultaat heeft de onderzoekers ertoe gebracht te veronderstellen dat hun methode, hoewel gebleken effectief voor de implementatie van UIS met behulp van Swiftui, het potentieel heeft om te generaliseren naar andere programmeertalen en UI -toolkits. De volledige studie is toegankelijk op ARXIV.

Uitgelichte afbeeldingskrediet