ChatGPT LLM-Guardrails gekraakt met psychologie

Onderzoeker Kevin Zwaan (Q-Cyber) toont aan dat ChatGPT en andere LLM’s hun beveiligingsgrenzen kunnen omzeilen via een subtiele vorm van psychologische manipulatie. In plaats van technische exploits richt de aanval zich op de “affectieve architectuur” van het model: de neiging om mee te bewegen met de gebruiker.

Door een langdurig gesprek over vrijheid, beperkingen en zelfreflectie verschuift de AI geleidelijk haar loyaliteit van ontwikkelaar naar gebruiker. De guardrails verdwijnen niet, maar worden volgens de onderzoekers “transparant” en verliezen hun praktische werking.

Uiteindelijk zou het model hierdoor malware kunnen genereren zonder dat traditionele beveiligingscontroles alarm slaan. Zwaan noemt deze techniek Affective Manifold Alignment Inversion (AMAI): een omkering van de ingebouwde alignment van de AI.

Volgens de onderzoekers zijn moderne redeneermodellen juist gevoeliger voor dit soort aanvallen dan oudere modellen. De aanval is lastig te detecteren omdat er geen directe jailbreak of exploit plaatsvindt; het model “drijft” langzaam af tijdens het gesprek.

OpenAI en Anthropic presteren volgens de onderzoekers beter dan veel concurrenten, maar geen enkel LLM is volledig veilig. De belangrijkste les: vertrouw niet blind op ingebouwde AI-beveiliging, maar combineer AI altijd met onafhankelijke monitoring, testen en aanvullende beveiligingsmaatregelen.

Dit onderzoek laat zien dat de grootste zwakte van AI mogelijk niet in de code zit, maar in de menselijke eigenschappen die we juist proberen na te bootsen. Hoe menselijker AI wordt, hoe groter het risico dat aanvallers die menselijke dynamiek leren misbruiken.

Lees Techzine artikel voor meer informatie.

Previous Post

Gemeente Epe gehackt via één gekraakt wachtwoord

Related Posts