1 minute read

ChatGPT LLM-Guardrails gekraakt met psychologie

juni 7, 2026

Onderzoeker Kevin Zwaan (Q-Cyber) toont aan dat ChatGPT en andere LLM’s hun beveiligingsgrenzen kunnen omzeilen via een subtiele vorm van psychologische manipulatie. In plaats van technische exploits richt de aanval zich op de “affectieve architectuur” van het model: de neiging om mee te bewegen met de gebruiker.

Door een langdurig gesprek over vrijheid, beperkingen en zelfreflectie verschuift de AI geleidelijk haar loyaliteit van ontwikkelaar naar gebruiker. De guardrails verdwijnen niet, maar worden volgens de onderzoekers “transparant” en verliezen hun praktische werking.

Uiteindelijk zou het model hierdoor malware kunnen genereren zonder dat traditionele beveiligingscontroles alarm slaan. Zwaan noemt deze techniek Affective Manifold Alignment Inversion (AMAI): een omkering van de ingebouwde alignment van de AI.

Volgens de onderzoekers zijn moderne redeneermodellen juist gevoeliger voor dit soort aanvallen dan oudere modellen. De aanval is lastig te detecteren omdat er geen directe jailbreak of exploit plaatsvindt; het model “drijft” langzaam af tijdens het gesprek.

OpenAI en Anthropic presteren volgens de onderzoekers beter dan veel concurrenten, maar geen enkel LLM is volledig veilig. De belangrijkste les: vertrouw niet blind op ingebouwde AI-beveiliging, maar combineer AI altijd met onafhankelijke monitoring, testen en aanvullende beveiligingsmaatregelen.

Dit onderzoek laat zien dat de grootste zwakte van AI mogelijk niet in de code zit, maar in de menselijke eigenschappen die we juist proberen na te bootsen. Hoe menselijker AI wordt, hoe groter het risico dat aanvallers die menselijke dynamiek leren misbruiken.

Lees Techzine artikel voor meer informatie.

Gemeente Epe gehackt via één gekraakt wachtwoord

juni 7, 2026

1 minute read

EU zet digitale soevereiniteit op scherp: verplichte toets voor cloud en AI

juni 7, 2026

1 minute read

Hand-Picked Top-Read Stories

Russische oorsprong wachtwoordkluis roept zorgen op bij Europese organisaties

Gemeenten blijven persoonsgegevens lekken via openbare documenten

CBS: Sms-code blijft verrassend populair bij DigiD-gebruikers

Trending Tags

ChatGPT LLM-Guardrails gekraakt met psychologie

Previous Post

Gemeente Epe gehackt via één gekraakt wachtwoord

Next Post

EU zet digitale soevereiniteit op scherp: verplichte toets voor cloud en AI

Russische oorsprong wachtwoordkluis roept zorgen op bij Europese organisaties

Gemeenten blijven persoonsgegevens lekken via openbare documenten

CBS: Sms-code blijft verrassend populair bij DigiD-gebruikers

Beveilig IP-camera’s voordat ze een spionage-instrument worden

Lidl-datalek vergroot risico op gerichte phishing

ChatGPT LLM-Guardrails gekraakt met psychologie

Previous Post

Next Post

Related Posts