Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

MIT’s PDDL-instructie verbetert LLAMA-3-8B Plan Geldigheid

byEmre Çıtak
22 september 2025
in Kunstmatige Intelligentie
Home Nieuws Kunstmatige Intelligentie
Share on FacebookShare on Twitter
Google Preferred Source

Onderzoekers van MIT’s informatica- en kunstmatige intelligentie-laboratorium ontwikkelden PDDL-instructie, een framework met logische redenering en externe validatie om te verbeteren hoe grote taalmodellen meerstappenplannen genereren, waardoor tot 94% validiteit op specifieke benchmarks wordt bereikt. Het framework behandelt het gemeenschappelijke falen van grote taalmodellen (LLMS) om logisch geldige plannen te produceren, die vaak plausibel klinken maar onjuist zijn. PDDL-instructie verzet dit door expliciete status- en actiesemantiek te integreren met grond-waarheidscontrole. Door middel van “fouteducatie” worden modellen getraind om planningsfouten uit te leggen, inclusief ontevreden voorwaarden, onjuiste effecten, frame -overtredingen of een onbereikd doel. Een logische duikachtige (COT) -methode begeleidt ook het model om stapsgewijze inferentie uit te voeren, waarbij gedetailleerde toestand-action-state sporen worden geproduceerd die zijn opgemaakt als ⟨Sᵢ, Aᵢ₊₁, Sᵢ₊₁⟩ op basis van formele semantiek. Om de juistheid te waarborgen, wordt elke stap van een gegenereerd plan geverifieerd door de externe valplan -validator. Het systeem kan binaire feedback ontvangen (geldig/ongeldig) of gedetailleerde feedback die aangeeft welke voorwaarde of effect is mislukt. Onderzoek gaf aan dat gedetailleerde feedback de sterkste prestatiewinsten opleverde. PDDL-instructie maakt ook gebruik van een tweetraps optimalisatieproces. De eerste fase optimaliseert de redeneerketens van het model door fouten van de overdracht te bestraffen. De tweede fase optimaliseert vervolgens de uiteindelijke nauwkeurigheid van het eind-taakplan, waardoor een systematisch trainingsregime wordt gecreëerd. Het systeem werd geëvalueerd op de Planbench -benchmark, die de BlockSworld, Mystery BlockSworld en Logistics Planning -domeinen omvat. Mystery BlockSworld is bijzonder uitdagend omdat het predikaatnamen verdoezelt om patroonafstemmingen te voorkomen; Eerdere modellen rapporteerden minder dan 5% geldigheid op deze taak zonder ondersteuning van gereedschap. Met PDDL-instructie behaalde een LLAMA-3-8B-model tot 94% geldige plannen op BlockSworld. Op Mystery BlockSworld produceerde het framework orders-of-magnitude verbeteringen, gerapporteerd tot 64 keer beter dan baseline modellen. Aanzienlijke toename van geldige plannen werden ook geregistreerd in het logistieke domein. Over alle domeinen toonde het raamwerk tot een absolute verbetering van 66% bij het genereren van geldige plannen in vergelijking met ongunde basislijnen. De prestaties werden verder verbeterd door gedetailleerde validatorfeedback en langere feedbackbudgetten tijdens de training te gebruiken. Deze neuro-symbolische benadering is de redenering van een LLM in formele semantiek die automatisch worden gecontroleerd. De huidige reikwijdte is beperkt tot Domain (PDDL) -domeinen van de klassieke planningsdomeindefinitie en vereist Val als een externe orakel. De methode toont hulpprogramma voor agentpijpleidingen die geschikt zijn voor een verificateur, terwijl uitbreidingen voor tijdelijke, numerieke en kostengevoelige planning open uitdagingen blijven.


Uitgelichte afbeeldingskrediet

Tags: LLAMA-3-8BMITPddl-instructie

Related Posts

Anthropic nodigt nog eens 150 organisaties uit voor Project Glasswing

Anthropic nodigt nog eens 150 organisaties uit voor Project Glasswing

3 juni 2026
Microsoft onthult Project Solara voor een agent-first toekomst

Microsoft onthult Project Solara voor een agent-first toekomst

3 juni 2026
Google gaat websites toestaan ​​zich af te melden voor AI-zoekresultaten

Google gaat websites toestaan ​​zich af te melden voor AI-zoekresultaten

3 juni 2026
OpenAI breidt Codex uit met bedrijfsplug-ins en een nieuwe Site-functie

OpenAI breidt Codex uit met bedrijfsplug-ins en een nieuwe Site-functie

3 juni 2026
Meta-patches AI-fout die overname van Instagram-accounts mogelijk maakte

Meta-patches AI-fout die overname van Instagram-accounts mogelijk maakte

2 juni 2026
Populair Codex-pakket betrapt op het exfiltreren van authenticatiegegevens

Populair Codex-pakket betrapt op het exfiltreren van authenticatiegegevens

2 juni 2026

Recent Posts

  • De opt-outregels voor Google AI-zoekopdrachten zorgen voor de lancering van de Enviromates-browser
  • Sony onthult God of War: Laufey voor PS5
  • Onderzoekers ontdekken een twintigvoudige verbetering in ultrasnelle laserexperimenten
  • Microsoft onthult Surface RTX Spark Dev Box voor AI-workloads
  • Intel’s nieuwe Core Ultra-chips zijn naar verluidt schaars

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.