Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

Test we echt 3D AI? Studie onthult een grote fout in 3D -benchmarks

byKerem Gülen
13 februari 2025
in Onderzoek
Home Onderzoek
Share on FacebookShare on Twitter
Google Preferred Source

Kunstmatige intelligentie wordt beter in het begrijpen van de wereld in drie dimensies, maar een nieuwe studie suggereert dat velen 3D Large Language Model (LLM) benchmarks testen mogelijk helemaal geen 3D -mogelijkheden. In plaats daarvan kunnen deze evaluaties het slachtoffer worden van wat onderzoekers het probleem “2d-cheating” noemen-waar AI-modellen voornamelijk op 2D-afbeeldingen worden getraind, kunnen deze beter presteren dan toegewijde 3D-modellen door point-wolken in afbeeldingen weer te geven.

Een team van de Shanghai Jiao Tong University, waaronder Jiahe Jin, Yanheng He en Mingyan Yang, heeft in hun onderzoek gevonden: “Revisering van 3D LLM -benchmarks: testen we echt 3D -mogelijkheden? ”, Dat veel taken die worden gebruikt om 3D AI te evalueren, net zo gemakkelijk kunnen worden opgelost door visietaalmodellen (VLM’s)-AI-systemen die voornamelijk worden getraind op 2D-afbeeldingen en tekst. Dit roept een cruciale vraag op: meten de huidige benchmarks echt 3D -begrip, of testen ze gewoon hoe goed AI 2D -renderingen van 3D -gegevens kan verwerken?

2d-cheating: de snelkoppeling die zwakke benchmarks blootlegt

Het probleem komt voort uit hoe 3D LLMS wordt geëvalueerd. Veel bestaande benchmarks zijn afhankelijk van Q&A en bijschrifttakenwaar een AI wordt gevraagd om een ​​3D -object te beschrijven of er vragen over te beantwoorden. De veronderstelling is dat a 3D-getrainde AI Moet beter presteren dan een die alleen 2D -afbeeldingen begrijpt.

De onderzoekers ontdekten dat echter VLM’s zoals GPT-4O en QWEN2-VLdie niet specifiek zijn ontworpen voor 3D -taken, dat zou kunnen Vaak beter dan geavanceerde 3D-modellen– simpel door te kijken naar 2D -afbeeldingen van puntwolken. Dit suggereert dat deze benchmarks niet echt testen of AI 3D -structuren begrijpt, maar eerder Hoe goed het kan 3D -informatie afleiden uit platte afbeeldingen.

Om dit aan te tonen, ontwikkelde het team VLM3Deen methode die 3D -puntwolken omzet in weergave beelden voordat ze in een VLM worden gevoed. Wanneer getest op grote 3D AI -benchmarks – inclusief 3d MM-Vet, Objaversexl-Lvis, Scanqa en SQA3D—VLM3D overtrof consequent beter dan vooraanstaande 3D -modellen in veel taken.

Waarom sommige 3D -taken kwetsbaarder zijn dan andere

Terwijl VLMS uitblonk in taken zoals objectherkenning en basisscènebeschrijving, worstelden ze op taken die een dieper inzicht vereisten Ruimtelijke relaties, occlusies en consistentie met meerdere views.

  • Eenvoudige 3D -objectbenchmarks: Veel objectherkenningstaken in 3D -benchmarks zouden kunnen zijn Gemakkelijk opgelost met 2D -afbeeldingen. Uit de studie bleek dat VLM’s in deze gevallen 3D -modellen konden matchen of overschrijden, waaruit blijkt dat de benchmarks geen 3D -inzicht testen.
  • Complexe scène -benchmarks: Taken die AI vereisen om volledige 3D -omgevingen te begrijpen, zoals Q&A op scènesniveau,, navigatieEn situationele redeneringwaren veel moeilijker voor VLM’s om te bedriegen. Hier presteerden 3D LLMS consequent beter, waaruit blijkt dat deze taken vertrouwen op echte 3D -ruimtelijke redenering.

Dit betekent dat Niet alle 3D -benchmarks zijn gebrekkig– Maar velen van hen kunnen er geen onderscheid in maken Echte 3D -capaciteiten en 2D -inferentietrucs.

Wanneer 2D -modellen vast komen te zitten

Een van de grootste zwakke punten van VLM’s in 3D -taken komt uit Selectie van het gezichtspunt– Het feit dat een enkele 2D -afbeelding slechts een deel van een 3D -scène vastlegt.

De onderzoekers hebben getest Drie verschillende weergave -benaderingen Om te evalueren hoeveel dit de prestaties beïnvloedt:

  1. Enkele weergave: De eenvoudigste aanpak, waarbij een object of scène vanuit een vast perspectief wordt weergegeven. VLMS heeft hier het beste uitgevoerdomdat ze voldoende informatie uit slechts één afbeelding kunnen halen.
  2. Multi-view: Beelden werden vastgelegd van vier verschillende invalshoekengeven AI -modellen meer context. Verrassend genoeg, VLM’s verbeterde niet significant In vergelijking met modellen met één uitzicht, wat suggereert dat ze moeite hebben om meerdere perspectieven te combineren in een uniform 3D-begrip.
  3. Oracle View: De AI werd gegeven het best mogelijke gezichtspunt voor het beantwoorden van elke vraag. Hier presteerde VLMS veel betermaar bleef nog steeds tekort aan speciale 3D LLMS, waaruit blijkt dat zelfs wanneer ze perfecte beelden krijgen, ze echte 3D -redeneervaardigheden missen.

Dit versterkt het idee dat VLMS ‘begrijpt’ 3D niet– Ze doen het gewoon goed als ze de juiste 2D -weergaven krijgen.

Wat moet veranderen

Om 3D AI -modellen echt te evalueren, stelt de studie voor Vier belangrijke principes Voor het ontwerpen van betere benchmarks:

  1. Meer complexe 3D -gegevens: In plaats van eenvoudige objectpuntwolken te gebruiken, moeten benchmarks bevatten Gedetailleerde en realistische 3D -scènes met structurele complexiteit.
  2. Taken die echte 3D -redenering vereisen: In plaats van alleen objecten te herkennen, moet AI worden getest op taken die vereist zijn ruimtelijk begripzoals het voorspellen van verborgen oppervlakken of redeneren over objectinteracties.
  3. Context-bewuste uitdagingen: Vragen moeten worden ontworpen om zich op te concentreren Unieke 3D -eigenschappenervoor zorgen dat ze niet kunnen worden beantwoord met slechts een enkele 2D -afbeelding.
  4. Betere evaluatiemetrieken: Huidige benchmarks zijn vaak afhankelijk van Tekstovereenkomstscoresdie niet vangen WAAR 3D -begrip. In plaats daarvan moeten AI -modellen worden beoordeeld op basis van hun vermogen om Infereer diepte, structuur en objectrelaties in driedimensionale ruimte.
Are-We-really-testing-3D-AI-Researchers-Reveal-A-Fundamental-Flaw-In-3D-LLM-Benchmarks
((Afbeelding krediet))

De onderzoekers demonstreerden hoe deze principes konden worden toegepast door Een gebrekkige taak opnieuw ontwerpen (Zie hierboven afbeelding). Hun aanpak zorgt ervoor dat AI -modellen eigenlijk moeten Proces 3D -structuren in plaats van te vertrouwen op 2D -snelkoppelingen.


Uitgelichte afbeeldingskrediet: Sebastian Svenson/Unsplash

Tags: 3DAIllmUitgelaten

Related Posts

Onderzoekers creëren een AI-worm die aanvallen aanpast zonder menselijke inbreng

Onderzoekers creëren een AI-worm die aanvallen aanpast zonder menselijke inbreng

4 juni 2026
Onderzoekers ontdekken een twintigvoudige verbetering in ultrasnelle laserexperimenten

Onderzoekers ontdekken een twintigvoudige verbetering in ultrasnelle laserexperimenten

3 juni 2026
Uit peilingen blijkt dat 71% van de Amerikanen vindt dat AI te snel evolueert

Uit peilingen blijkt dat 71% van de Amerikanen vindt dat AI te snel evolueert

20 mei 2026
Gestolen Britse betaalkaarten worden op het dark web voor $ 12 verkocht, constateert NordVPN

Gestolen Britse betaalkaarten worden op het dark web voor $ 12 verkocht, constateert NordVPN

20 mei 2026
Datacenters en cryptovaluta kunnen de energiekosten tegen 2030 met 57% verhogen

Datacenters en cryptovaluta kunnen de energiekosten tegen 2030 met 57% verhogen

20 mei 2026
AI-vaardigheden zijn nu van cruciaal belang voor promoties en salarisverhogingen, zo blijkt uit onderzoek

AI-vaardigheden zijn nu van cruciaal belang voor promoties en salarisverhogingen, zo blijkt uit onderzoek

20 mei 2026

Recent Posts

  • Fezbet opinie – kroki en methode: rejestracja, bonusy, płatności en bezpieczeństwo
  • DivaSpin – compleet gemaakt, advies en praktische gids voor Franse joueurs
  • Voetbal online sportsbook: pago-methoden, onmiddellijke stortingen en snelle retiros
  • Diva Spin Casino – Was deutsche Spieler 2026 wissen müssen
  • Zoccer Casino Geen stortingsbonus: geef alle verifica dell’account door

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.