Dataconomy NL
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy NL
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

AI -onderzoekstools kunnen meer problemen veroorzaken dan ze oplossen

byEmre Çıtak
14 mei 2025
in Research
Home Research

Een nieuwe studie heeft onbedekt Een alarmerende toename van formeel onderzoeksdocumenten afgeleid van het National Health and Nutrition Examination Survey (NHANES), wat suggereert dat kunstmatige intelligentietools worden misbruikt om statistisch zwakke en potentieel misleidende wetenschappelijke literatuur massaal te produceren. De auteurs wijzen op een toename van analyses met één factor die multifactoriële complexiteit negeren, open gegevens selectief benutten en robuuste statistische correcties omzeilen.

Tussen 2014 en 2021Slechts vier van dergelijke artikelen werden elk jaar gepubliceerd. Maar alleen al in 2024, tot 9 oktober, was de telling geblisd tot 190. Deze exponentiële groei, gepaard met een verschuiving in de oorsprong van de publicatie en een afhankelijkheid van automatisering, geeft aan dat AI-ondersteunde pijpleidingen mogelijk van lage kwaliteit manuscriptproductie versnellen. De kern van het probleem is het misbruik van NHANES, een gerespecteerde en ai-ready Amerikaanse overheidsgegevensset die oorspronkelijk is ontwikkeld om trends in de volksgezondheid in de bevolking te evalueren.

Het probleem van het NHANES -probleem uitpakken

NHANES biedt een uitzonderlijk rijke gegevensset, die klinische, gedrags- en laboratoriumgegevens combineert met duizenden variabelen. Het is toegankelijk via API’s en heeft gestandaardiseerde Python- en R -bibliotheken, waardoor onderzoekers de gegevens efficiënt kunnen extraheren en analyseren. Dit maakt het een waardevol hulpmiddel voor zowel onderzoekers van de volksgezondheid als AI -ontwikkelaars. Maar dit zeer gemak creëert ook een kwetsbaarheid: het stelt onderzoekers in staat om snel resultaten te genereren en met minimaal toezicht, wat leidt tot een explosie van formeel onderzoek.

De nieuwe studie analyseerde 341 op NHANES gebaseerde artikelen gepubliceerd tussen 2014 en 2024 die afhankelijk waren van een enkele variabele correlaties. Deze artikelen verschenen gemiddeld in tijdschriften met matige impact (gemiddelde impactfactor van 3,6) en waren vaak gericht op aandoeningen zoals depressie, diabetes of hart- en vaatziekten. In plaats van het multifactoriële karakter van deze voorwaarden te onderzoeken, trokken de studies doorgaans statistische significantie uit een enkele onafhankelijke variabele, het omzeilen van valse ontdekkingscorrectie en het vaak vertrouwen op onverklaarbare gegevenssubsinten.

Een belangrijke zorg is dat multifactoriële gezondheidsproblemen – zoals psychische stoornissen, chronische ontsteking of hart- en vaatziekten – werden geanalyseerd met behulp van methoden die meer geschikt zijn voor eenvoudige binaire relaties. In feite presenteerden deze studies bevindingen die nuance wegvielen en de realiteit negeerden dat gezondheidsresultaten zelden worden aangedreven door een enkele factor.

Depressie werd gebruikt als case study, met 28 individuele artikelen die associaties claimen tussen de toestand en verschillende onafhankelijke variabelen. Slechts 13 van deze associaties bleven echter statistisch significant na het toepassen van valse ontdekkingssnelheid (FDR) correctie. Zonder de juiste correctie lopen deze publicaties het risico een groot deel van te introduceren Type I -fouten in de wetenschappelijke literatuur. In sommige gevallen leken onderzoekers variabelen te recyclen als zowel voorspellers als resultaten over artikelen, waardoor de wateren verder modderden.


Microsoft’s Adele wil uw AI een cognitief profiel geven


Selectieve datamining en akkoord

Een ander probleem dat door de auteurs werd ontdekt, was het gebruik van ongerechtvaardigde gegevenssubsets. Hoewel NHANES een brede tijdlijn van gezondheidsgegevens die dateren uit 1999 biedt, kozen veel onderzoekers een smalle analyseverdwalen zonder de redenering bekend te maken. Sommige studies gebruikten bijvoorbeeld alleen de 2003 tot 2018 Venster om diabetes en ontstekingen te analyseren, ondanks bredere beschikbaarheid van gegevens. De praktijk verwijst naar gegevens die baggeren of aanschuwen, verondersteld na resultaten bekend, een methodologisch gebrekkige benadering die reproduceerbaarheid en transparantie ondermijnt.

De mediane studie analyseerde slechts vier jaar NHANES -gegevens, ondanks de database die meer dan twee decennia informatie aanbiedt. Met deze selectieve bemonstering kunnen auteurs de kans vergroten om significante resultaten te behalen zonder de complexiteit van de volledige dataset te verklaren, waardoor het gemakkelijker is om manuscripten in het hoogvolume te produceren en te publiceren.

Van de 341 beoordeelde artikelen is meer dan 50 procent afkomstig van slechts drie uitgeversfamilies: Frontiers, Biomed Central en Springer. Meer in het bijzonder verschoof het land van herkomst drastisch. Vóór 2021 was slechts 8 procent van de primaire auteurs gevestigd in China. Tussen 2021 en 2024 steeg dit tot 92 procent. Hoewel dit een weerspiegeling kan zijn van veranderende onderzoeksprioriteiten of beleidsprikkels, suggereren de omvang en timing gecoördineerd gebruik van geautomatiseerde pijpleidingen die mogelijk zijn gekoppeld aan papierfabrieken.

De bevindingen vormen een serieuze uitdaging voor de integriteit van wetenschappelijke literatuur. Single-variabele studies die geen rekening houden met complexe onderlinge afhankelijkheden zijn eerder misleidend. Wanneer ze op schaal worden herhaald, overspoelt dergelijk onderzoek het academische ecosysteem met artikelen die voldoen aan publicatiedrempels maar weinig nieuw inzicht bieden. Dit wordt verergerd door een zwakke peer review en de groeiende druk op onderzoekers om vaak en snel te publiceren.

De auteurs waarschuwen dat deze praktijken, als ze niet worden aangevinkt, het evenwicht in sommige subvelden kunnen verschuiven waar vervaardigde papieren het aantal legitieme overtroffen. Het gebruik van AI om het genereren van manuscripten te versnellen, versterkt dit risico alleen. Naarmate generatieve modellen toegankelijker worden, maken ze een snelle conversie van statistische outputs mogelijk in manuscripten van volledige lengte, waardoor de tijd en expertise die nodig is om wetenschappelijke artikelen te publiceren, wordt verminderd.

Aanbevelingen voor belanghebbenden:

Om de risico’s van door AI-compatibele gegevens te baggeren en in massa geproduceerd onderzoek te verminderen, stellen de auteurs verschillende concrete stappen voor:

  • Voor onderzoekers: Erken de beperkingen van onderzoeken met één factor en neem waar nodig multifactoriële analyse op. Rechtvaardigen duidelijk eventuele wijzigingen in de subset- of hypothese.
  • Voor gegevensaanbieders: Introduceer auditeerbare toegang via API -toetsen of applicatie -ID’s om willekeurige mijnbouw te ontmoedigen. Vereisen dat elke publicatie die hun datasets citeert, de volledige geschiedenis van de data -extractie bekendmaakt.
  • Voor uitgevers: Verhoog de afwijzingspercentages voor formules voor formules. In dienst toegewijde statistische reviewers. Gebruik sjablonen om manuscripten te identificeren met behulp van identieke pijpleidingen met alleen variabele swaps.
  • Voor peer reviewers: Behandel het gebruik van een enkele variabele analyse voor complexe omstandigheden als rode vlag. Verzoek verduidelijking wanneer statistische strengheid ontbreekt of gegevenssubsets slecht gerechtvaardigd zijn.
  • Voor de bredere wetenschappelijke gemeenschap: Deelnemen aan review na de publicatie. Platforms zoals PubPeer moeten actief worden gebruikt om twijfelachtige praktijken te markeren, zelfs wanneer de statistische methoden oppervlakkig gezond lijken.

Uitgelichte afbeeldingskrediet

Tags: AI

Recent Posts

  • Klaar voor een chatgpt dat je echt kent?
  • AI -onderzoekstools kunnen meer problemen veroorzaken dan ze oplossen
  • Maakt uw super nuttige generatieve AI -partner stiekem uw baan saai?
  • Microsoft’s Adele wil uw AI een cognitief profiel geven
  • Apple Research Paper onthult matrix3d ​​voor het genereren van 3D -inhoud

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

Social icon element need JNews Essential plugin to be activated.
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.