Deze benchmark vraagt of AI kan denken als een ingenieur

Volgens een nieuwe studie getiteld ‘Feabch: Taalmodellen evalueren over de redenering van multiphysica” Door onderzoekers van Google en Harvard kunnen grote taalmodellen een groot spel hebben-maar als het gaat om real-world engineering, kunnen de meeste niet eens een warmtesimulatie uitvoeren.

Deze nieuwe benchmark, nagesynchroniseerd Valstest modellen niet op het genereren van codegeneratie of problemen met de fysica van het leerboek. Het daagt hen uit om complexe, op simulatie gebaseerde engineeringtaken op te lossen met behulp van ComSol Multiphysicseen Professional-grade eindige element analyse (FEA) platform. Met andere woorden, het vraagt: kan uw favoriete AI -assistent een virtuele balk bouwen, de juiste fysica toepassen en daadwerkelijk berekenen wat er daarna gebeurt?

Waarom simulatie spitballs verslaat

FEA gaat niet over benaderingen. Het gaat om het vertalen van de fysieke realiteit in numerieke precisie – het modelleren van hoe warmte zich verspreidt in een halfgeleider, hoe een balk buigt onder druk, hoe materiaalfalen zich voortplant. Dit zijn vragen die technisch succes of catastrofe definiëren. In tegenstelling tot generieke benchmarks, verhoogt Feabch de lat: het vereist AI-modellen redeneren door middel van fysica met meerdere domein en exploiteert hij professionele simulatietools om problemen daadwerkelijk op te lossen.

Deze benchmark vraagt of AI kan denken als een ingenieur — Screenshot gemaakt van de gedeelde studie

Benchmarking van de UN-benchmarkable

Feabch vult een gat op die bestaande AI -benchmarks missen. Eerder werk heeft grotendeels de prestaties gemeten in symbolische wiskunde- of code-generatie, maar op simulatie gebaseerde wetenschap heeft meer nodig dan syntaxis. Het heeft semantisch begrip van ruimtelijke geometrie, materiaalinteracties en numerieke oplossers nodig. Feabch doet dit door te evalueren of LLMS een probleem met de natuurkunde van de natuurlijke taal kan aannemen, COMSOL Multiphysics® API -oproepen kan genereren en het juiste resultaat te berekenen.

De benchmark wordt geleverd in twee lagen. Feabch Gold Bevat 15 zorgvuldig geverifieerde problemen met schone inputs, duidelijk gedefinieerde doelen en correcte uitvoerwaarden – elk oplosbaar via COMSOL’s Java API. Deze omvatten fysica -domeinen van warmteoverdracht naar kwantummechanica. Dan is er Feebch groot: Een set van 200 algoritmisch ontleed tutorials die een bredere code -generatie testen, maar een strikte grondwaarheid missen. Goud tests precisie; Grote tests breedte.

Om deze taken aan te pakken, bouwden de onderzoekers een volledige agentische pijplijn. A Controlleragent houdt toezicht op het proces. A Correctorsubagent Refijnt code op basis van uitvoeringsfouten. A Tollookupagent Ophaalt fysica -documentatie of geannoteerde codefragmenten om te helpen. De Beoordelaar Gebruikt zowel API -feedback als een Verifierllm om te beoordelen of de oplossing zinvol is. Dit systeem voert niet alleen one-shot aanwijzingen uit-het is navigeren, corrigeren en leren van fouten.

Gesloten gewichten winnen, maar nog steeds zweet

In baseline-proeven versloeg gesloten-source modellen zoals Claude 3.5, GPT-4O en Gemini 1.5 meer dan open-gewicht modellen. Claude 3.5 leidde het peloton, bereikte 79% uitvoerbaarheid en scoorde het enige geldige doelwit op een goudprobleem. Open modellen worstelden, met enkele hallucinerende fysica -interfaces of mislukte functies. Het meest uitdagende deel? De fysica -blokwaar modellen nodig waren om nauwkeurige grensvoorwaarden en fysica -eigenschappen toe te passen om resultaten te krijgen die overeenkomen met de grondwaarheid.

Claude 3.5 Sonnet: 0.79 Uitvoering, 1/15 Geldig doelwit
GPT-4O: 0.78 Uitvoering, 0/15 Geldig doelwit
Gemini-1.5-pro: 0.60 Uitvoering, 0/15 Geldig doelwit

Als een plan niet genoeg is

De benchmark bevat twee taaktypen. In de Modellenspecs Taak, de LLM krijgt alleen de technische specificaties en moet een oplossing redeneren. In de Plan Taak, het model krijgt stapsgewijze instructies. Verrassend genoeg leidde de plantaak niet tot betere prestaties. Modellen faalden vaak door te letterlijk instructies te nemen en onjuiste API -namen te hallucineren. Een lijst met geldige COMSOL -functies toevoegen aan de prompt – de Phydoc in-context Strategie – hielp de hallucinaties en verbeterde interface -feiten aanzienlijk verminderd.

Lessen voor AI -ingenieurs

Eén grote afhaalmaaltijden: vertaling is moeilijker dan planning. Zelfs als het model weet wat te doen, is het uiten in de DSL van COMSOL (domeinspecifieke taal) de wegversperring. De oplossing van het team? Bied aardingstools zoals geannoteerde codebibliotheken en in-context documentatie en combineer dat vervolgens met gestructureerde agentische workflows. Dat recept veranderde slechte one-shot prestaties in robuuste verbetering van multi-turn. In feite is de strategie voor multi-turn agent bereikt 88% uitvoerbaarheidde hoogste van alle experimenten.

ModelsPecs + Multi-Turn Agent: 0.88 Uitvoering, 2/15 Geldige doelen
ModelsPecs + Phydoc: 0,62 Uitvoering, 1/15 Geldige doelen

Simulaties zijn hoe ingenieurs tijd en risico comprimeren. Feabch laat zien dat LLMS niet klaar is om simulaties zonder toezicht uit te voeren, maar ze komen in de buurt van nuttige copiloten. Dat is belangrijk of we willen dat AI helpt bij snel prototyping, wetenschappelijke ontdekking of structureel ontwerp. En als AI kan leren de fysieke wereld te modelleren net zo precies als deze taal nabootst, zal het niet alleen chatten – het simuleren, oplossen en misschien ooit, zelfs uitvinden.

Uitgelichte afbeeldingskrediet

Tags: AI Fabrieken Uitgelaten

Deze benchmark vraagt of AI kan denken als een ingenieur

Related Posts

82% van de non -profitorganisaties gebruikt AI: bijna niemand reguleert het

VN waarschuwt AI BOOM zou de wereldwijde ongelijkheid kunnen verergeren en 40% van de banen kunnen verplaatsen

De LLM draagt Prada: waarom AI nog steeds winkelt in stereotypen

Maverix: Waarom je AI niet kan horen wat je ziet

Waarom je hersenen misschien de volgende blauwdruk zijn voor Smarter AI

Deze AI leert beter te klikken dan jij

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Deze benchmark vraagt ​​of AI kan denken als een ingenieur

Waarom simulatie spitballs verslaat

Benchmarking van de UN-benchmarkable

Gesloten gewichten winnen, maar nog steeds zweet

Als een plan niet genoeg is

Lessen voor AI -ingenieurs

Related Posts

82% van de non -profitorganisaties gebruikt AI: bijna niemand reguleert het

VN waarschuwt AI BOOM zou de wereldwijde ongelijkheid kunnen verergeren en 40% van de banen kunnen verplaatsen

De LLM draagt ​​Prada: waarom AI nog steeds winkelt in stereotypen

Maverix: Waarom je AI niet kan horen wat je ziet

Waarom je hersenen misschien de volgende blauwdruk zijn voor Smarter AI

Deze AI leert beter te klikken dan jij

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

Deze benchmark vraagt of AI kan denken als een ingenieur

De LLM draagt Prada: waarom AI nog steeds winkelt in stereotypen