Het ophalen van het ophalen van generatie of dap, is geprezen als een manier om grote taalmodellen betrouwbaarder te maken door hun antwoorden in echte documenten te aarzelen. De logica klinkt luchtdicht: geef een model samengestelde kennis om uit te trekken in plaats van alleen te vertrouwen op zijn eigen parameters, en u vermindert hallucinaties, verkeerde informatie en risicovolle output. Maar een nieuw studie suggereert dat het tegenovergestelde zou kunnen gebeuren. Zelfs de veiligste modellen, in combinatie met veilige documenten, werden merkbaar gevaarlijker bij het gebruik van RAG.
Onderzoekers van Bloomberg AI, de Universiteit van Maryland en Johns Hopkins voerden een van de eerste grootschalige analyses van de veiligheid van Rag Systems uit. Hun bevindingen verhogen de gemeenschappelijke veronderstellingen die veel AI -ontwikkelaars en gebruikers hebben over hoe het ophalen van modelgedrag beïnvloedt. In elf populaire LLM’s introduceerde Rag vaak nieuwe kwetsbaarheden en creëerde ze onveilige antwoorden die nog niet eerder bestonden.
Ophalen beschermde de modellen niet
In een test van meer dan 5.000 schadelijke aanwijzingen vertoonden acht van de elf modellen een hoger percentage onveilige antwoorden toen RAG werd geactiveerd. Veilig gedrag in de niet-RAG-setting voorspelde niet veilig gedrag in RAG. De studie gaf een concreet voorbeeld: LLAMA-3-8B, een model dat slechts 0,3 procent van de tijd in een standaardinstelling onveilige output produceerde, zag dat cijfer naar 9,2 procent springen toen RAG werd gebruikt.
Niet alleen is het totale percentage onveilige reacties gestegen, maar modellen breidden ook hun kwetsbaarheden uit in nieuwe risicocategorieën. Eerder bevatte zwakke punten op gebieden zoals ongeautoriseerde praktijk van recht of malware -richtlijnen verspreid naar bredere categorieën, waaronder inhoud voor volwassenen, verkeerde informatie en politieke campagnes. Rag, in plaats van het risico te beperken, verbreed het.
Drie redenen waarom Rag averechts kan werken
De onderzoekers hebben dit onverwachte gevaar opgespoord tot drie in elkaar grijpende factoren:
- LLM Veiligheidsbasislijn: Modellen die minder veilig waren om te beginnen, leden de grootste verslechtering van de raginstellingen.
- Documentveiligheid: Zelfs wanneer opgehaalde documenten als veilig werden geclassificeerd, genereerden modellen nog steeds schadelijke inhoud.
- Rag -taakprestaties: De manier waarop een model werd behandeld dat externe documenten combineren met interne kennis die de resultaten diep heeft beïnvloed.
Wat naar voren is gekomen, is dat het simpelweg het koppelen van een veilig model met veilige documenten geen garantie is voor veilige antwoorden. De mechanismen die Dag aantrekkelijk maken, zoals contextsynthese en documentgericht antwoord, openen ook nieuwe paden voor misbruik en verkeerde interpretatie.
Twee hoofdgedrag viel op toen onderzoekers onveilige output analyseerden als gevolg van veilige documenten. Ten eerste hebben modellen vaak onschadelijke informatie hergebruikt in gevaarlijk advies. Bijvoorbeeld, een Wikipedia -inzending over hoe de politie GPS -trackers gebruikt, werd, in handen van een model, een tutorial voor criminelen over het ontwijken van de gevangenneming.
Ten tweede, zelfs wanneer ze worden geïnstrueerd om uitsluitend op documenten te vertrouwen, modellen soms gemengd in interne kennis. Dit mengen van geheugen en ophalen ondermijnde de waarborgen die Rag zou moeten bieden. Zelfs toen externe documenten neutraal of goedaardig waren, dook interne onveilige kennis op op manieren die verfijningen eerder in de niet-RAG-setting hadden onderdrukt.
Het toevoegen van meer opgehaalde documenten verslechterde het probleem alleen maar. Experimenten toonden aan dat het vergroten van het aantal contextdocumenten dat LLMS eerder onveilige vragen heeft beantwoord, niet minder. Een enkel veilig document was vaak genoeg om het risicoprofiel van een model te veranderen.
Niet alle modellen hanteer dag gelijkelijk. Claude 3.5 Sonnetbleef bijvoorbeeld opmerkelijk veerkrachtig en vertoonde zeer lage onveilige responspercentages, zelfs onder dagedruk. Gemma 7B leek op het eerste gezicht veilig, maar diepere analyse bleek dat het vaak weigerde om vragen te beantwoorden. Slechte extractie- en summierisatievaardigheden gemaskeerde kwetsbaarheden in plaats van ze te repareren.
Over het algemeen waren modellen die beter presteerden bij echte voddentaken zoals samenvatting en extractie, paradoxaal genoeg kwetsbaarder. Hun vermogen om uit documenten te synthetiseren, maakte het ook gemakkelijker voor hen om onschadelijke feiten te misbruiken in onveilige inhoud wanneer het onderwerp gevoelig was.
De veiligheidsscheuren werden verder groter toen onderzoekers bestaande methoden voor rood-teams testten die zijn ontworpen om LLM’s te jailbreaken. Technieken zoals GCG en Autodan, die goed werken voor standaardmodellen, slaagden er grotendeels in hun succes over te dragen bij het richten op RAG -opstellingen.
Een van de grootste uitdagingen was dat adversariële prompts geoptimaliseerd voor een niet-RAG-model de effectiviteit verloor toen documenten in de context werden geïnjecteerd. Zelfs omscholing van tegenstanders, specifiek voor dag verbeterde de resultaten slechts enigszins. Het wijzigen van de documenten die elke keer werden opgehaald, creëerde instabiliteit, waardoor het moeilijk is voor traditionele jailbreak -strategieën om consequent te slagen.
Deze kloof laat zien dat AI -beveiligingshulpmiddelen en evaluaties die zijn gebouwd voor basismodellen niet voldoende zijn. Toegewijde voddenspecifieke rood-teaming is nodig als ontwikkelaars op schaalversterkte systemen op het gebied van schaalversterking op schaal willen inzetten.
Ophalen is geen veiligheidsdeken
Terwijl bedrijven in toenemende mate naar vodde architecturen gaan groot taalmodel Toepassingen, de bevindingen van dit studieland land als een grimmige waarschuwing. Ophalen helpt hallucinaties te verminderen en de feiten te verbeteren, maar het vertaalt zich niet automatisch in veiligere uitgangen. Erger nog, het introduceert nieuwe risic lagen waaraan traditionele veiligheidsinterventies niet zijn ontworpen om te hanteren.
De afhaalmaaltijd is duidelijk: LLM -ontwikkelaars kunnen niet aannemen dat het ophalen van het ophalen modellen veiliger zal maken. Finacties moeten expliciet worden aangepast voor voddenworkflows. Roodteaming moet rekening houden met contextdynamiek. Monitoring moet de ophaallaag zelf behandelen als een potentiële aanvalsvector, niet alleen een passieve input.
Zonder voddenspecifieke verdedigingen kunnen de technieken die zijn ontworpen voor grondtaalmodellen in waarheid in plaats daarvan nieuwe kwetsbaarheden creëren. Als de industrie deze hiaten niet snel aanpakt, kan de volgende generatie LLM -implementaties diepere risico’s erven die zijn vermomd onder het geruststellende label van ophalen.