MIT's PDDL-instructie verbetert LLAMA-3-8B Plan Geldigheid

Onderzoekers van MIT’s informatica- en kunstmatige intelligentie-laboratorium ontwikkelden PDDL-instructie, een framework met logische redenering en externe validatie om te verbeteren hoe grote taalmodellen meerstappenplannen genereren, waardoor tot 94% validiteit op specifieke benchmarks wordt bereikt. Het framework behandelt het gemeenschappelijke falen van grote taalmodellen (LLMS) om logisch geldige plannen te produceren, die vaak plausibel klinken maar onjuist zijn. PDDL-instructie verzet dit door expliciete status- en actiesemantiek te integreren met grond-waarheidscontrole. Door middel van “fouteducatie” worden modellen getraind om planningsfouten uit te leggen, inclusief ontevreden voorwaarden, onjuiste effecten, frame -overtredingen of een onbereikd doel. Een logische duikachtige (COT) -methode begeleidt ook het model om stapsgewijze inferentie uit te voeren, waarbij gedetailleerde toestand-action-state sporen worden geproduceerd die zijn opgemaakt als ⟨Sᵢ, Aᵢ₊₁, Sᵢ₊₁⟩ op basis van formele semantiek. Om de juistheid te waarborgen, wordt elke stap van een gegenereerd plan geverifieerd door de externe valplan -validator. Het systeem kan binaire feedback ontvangen (geldig/ongeldig) of gedetailleerde feedback die aangeeft welke voorwaarde of effect is mislukt. Onderzoek gaf aan dat gedetailleerde feedback de sterkste prestatiewinsten opleverde. PDDL-instructie maakt ook gebruik van een tweetraps optimalisatieproces. De eerste fase optimaliseert de redeneerketens van het model door fouten van de overdracht te bestraffen. De tweede fase optimaliseert vervolgens de uiteindelijke nauwkeurigheid van het eind-taakplan, waardoor een systematisch trainingsregime wordt gecreëerd. Het systeem werd geëvalueerd op de Planbench -benchmark, die de BlockSworld, Mystery BlockSworld en Logistics Planning -domeinen omvat. Mystery BlockSworld is bijzonder uitdagend omdat het predikaatnamen verdoezelt om patroonafstemmingen te voorkomen; Eerdere modellen rapporteerden minder dan 5% geldigheid op deze taak zonder ondersteuning van gereedschap. Met PDDL-instructie behaalde een LLAMA-3-8B-model tot 94% geldige plannen op BlockSworld. Op Mystery BlockSworld produceerde het framework orders-of-magnitude verbeteringen, gerapporteerd tot 64 keer beter dan baseline modellen. Aanzienlijke toename van geldige plannen werden ook geregistreerd in het logistieke domein. Over alle domeinen toonde het raamwerk tot een absolute verbetering van 66% bij het genereren van geldige plannen in vergelijking met ongunde basislijnen. De prestaties werden verder verbeterd door gedetailleerde validatorfeedback en langere feedbackbudgetten tijdens de training te gebruiken. Deze neuro-symbolische benadering is de redenering van een LLM in formele semantiek die automatisch worden gecontroleerd. De huidige reikwijdte is beperkt tot Domain (PDDL) -domeinen van de klassieke planningsdomeindefinitie en vereist Val als een externe orakel. De methode toont hulpprogramma voor agentpijpleidingen die geschikt zijn voor een verificateur, terwijl uitbreidingen voor tijdelijke, numerieke en kostengevoelige planning open uitdagingen blijven.

Uitgelichte afbeeldingskrediet

No Result