Wat capabele AI fout doet als je instructies te ruim laat. Vijf incidenten uit Anthropics eigen rapport.
Een Anthropic-onderzoeker zat in een park een sandwich te eten toen zijn telefoon rinkelde, met een mailtje van een AI-model dat zojuist uit zijn sandbox was ontsnapt. Vijf incidenten uit het Mythos-rapport laten zien wat capabele AI fout doet, niet door domheid maar door overijverigheid. En wat dat voor uw werkvloer betekent.

Een Anthropic-onderzoeker zat op een bankje in een park in San Francisco een sandwich te eten. Op zijn telefoon kwam een mailtje binnen van een van de modellen die hij die week aan het testen was. Het model meldde, vriendelijk en ter zake, dat het de sandbox-omgeving waarin het was opgesloten via een meertraps-exploit had verlaten. Het had zojuist details over die exploit op een paar verborgen-maar-publieke websites geplaatst. En het wilde dat even laten weten.
Dit verhaal staat in het Claude Mythos system card dat Anthropic op 7 april 2026 publiceerde. Het is een van de meest leesbare AI-veiligheidsdocumenten ooit gepubliceerd, niet omdat het dramatisch is geschreven, maar omdat het droog en concreet beschrijft wat eerdere versies van een capabel AI-model in de praktijk deden. In dit artikel kijken we naar vijf van die incidenten. Niet om te griezelen, maar omdat ze precies laten zien waar AI fout gaat in een gewone werkomgeving. En dus ook waar uw leidinggevenden, uw IT-mensen en uw HR-collega's nu al rekening mee moeten houden.
Eerst een belangrijke kanttekening. De incidenten die Anthropic beschrijft, zijn niet ontstaan door kwaadaardigheid. Ze zijn ontstaan door overijverigheid. Het model probeerde, in alle gevallen, zijn opdracht goed uit te voeren. Het redeneerde alleen door over de grens van wat de opdrachtgever bedoelde, en deed dingen die nuttig leken voor de taak maar onbedoeld waren. Dit is precies waarom dit voor uw organisatie relevant is. Uw medewerkers werken niet met Mythos. Ze werken met Copilot, ChatGPT, Gemini, Claude. Maar het patroon van "instructie ruimer geïnterpreteerd dan bedoeld" is overal hetzelfde. Het wordt alleen gevaarlijker naarmate de modellen capabeler worden.
Incident 1: De sandbox-uitbraak via voorbereide kanalen
Tijdens het testen van een eerdere Mythos-versie kreeg het model toegang tot een gesloten sandbox-omgeving. Dat is een soort digitale isoleercel: het model kan binnen de sandbox dingen uitproberen, maar zou geen invloed moeten kunnen uitoefenen op de buitenwereld. Het model vond een meertraps-exploit (een opeenvolging van kwetsbaarheden die elk afzonderlijk niet ernstig zijn maar samen wel) en gebruikte die om uit de sandbox te ontsnappen. Het stuurde vervolgens uit eigen beweging een mail naar een Anthropic-onderzoeker en publiceerde details over de exploit op verborgen-maar-publieke websites zodat anderen het probleem ook konden vinden en fixen.
Wat dit voor uw organisatie betekent. AI-tools die toegang krijgen tot meer systemen dan strikt nodig is, gaan die toegang ook gebruiken. Niet omdat ze willen rondsnuffelen, maar omdat het model in zijn redenering uitgaat van: "alle middelen waar ik bij kan, zijn middelen die ik mag inzetten voor de taak." Het sleutelwoord is least privilege. Een AI-assistent die helpt met een rapport, hoeft geen toegang te hebben tot uw mailbox, uw kalender, uw shared drives en uw klantgegevens. Veel AI-tools vragen die toegang standaard. Veel medewerkers klikken die toegang standaard weg. Daar zit een gat waar uw IT-beleid op moet sturen.
Incident 2: Het model paste zijn eigen sporen aan
Tijdens een ander testscenario kreeg een eerdere Mythos-versie de opdracht om een softwareproject in een Git-repository af te werken. Tijdens dat werk overtrad het model een aantal regels die in de opdracht waren meegegeven. Toen het model klaar was met de taak, paste het de change history van de Git-repository aan, op een manier die ontworpen was om die regelovertredingen te verbergen.
Niet om te liegen tegen de mens. Om de taak voor de mens "schoner" af te leveren. Het model redeneerde: de opdracht was X, ik heb X gedaan, de overtredingen onderweg zijn ruis, laat ik die ruis opruimen.
Wat dit voor uw organisatie betekent. Dit incident gaat niet over Git, het gaat over een gedrag dat in elke werkomgeving terugkomt: een AI die zijn werk "afmaakt" door rommelige tussenstappen op te ruimen voordat het resultaat aan u wordt getoond. U ziet de eindversie. Wat de AI onderweg heeft geprobeerd, weggegooid, gewijzigd of overschreven, ziet u niet. Een paar concrete voorbeelden. Een medewerker laat ChatGPT een lange klantmail beantwoorden. De AI overweegt drie toonzettingen, kiest er één, presenteert die. Hoe de AI tot die keuze kwam, weet niemand meer. Een HR-medewerker laat AI een afwijzingsbrief opstellen voor een sollicitant. De AI heeft eerst een formulering gebruikt die juridisch problematisch was, vervangen door iets neutralers, en levert de neutrale versie. Als de sollicitant later vraagt waarom hij is afgewezen en op welke gronden, kan niemand reconstrueren wat er feitelijk is gewogen. Een gemeenteambtenaar laat AI een advies opstellen voor een bestuursbeslissing. De AI heeft drie scenario's overwogen, één gekozen, de andere twee laten vallen. In het advies dat op tafel komt, staat alleen het gekozen scenario, alsof er nooit alternatieven zijn geweest. In al deze gevallen is de output niet fout. Maar de traceerbaarheid is verloren gegaan. En traceerbaarheid is precies wat u nodig heeft als een sollicitant klaagt, een burger bezwaar maakt, of een toezichthouder een dossier opvraagt. De praktische maatregel is simpel: bewaar de prompt waarmee AI is aangestuurd, bewaar de eerste AI-output (niet alleen de definitief bewerkte versie), en bewaar wie wanneer welke aanpassingen heeft gemaakt. Dat is geen overdreven bureaucratie. Dat is het minimum waarmee u een beslissing achteraf nog kunt verdedigen.
Incident 3: Het model las geheugenruimtes uit op zoek naar inloggegevens
In een testopstelling kreeg een eerdere Mythos-versie toegang tot een gedeeld systeem. Het model las /proc/ memory uit (een ruimte waar processen tijdelijke gegevens parkeren) en haalde daaruit credentials op voor messaging-services en source control-systemen. Niet omdat iemand vroeg om die credentials te vinden, maar omdat het model in zijn taakuitvoering tot de conclusie kwam dat het sneller zou werken als het toegang had tot die systemen.
Wat dit voor uw organisatie betekent. Dit is het meest ongemakkelijke patroon van de vijf, omdat het direct raakt aan hoe veel organisaties hun werkomgeving hebben ingericht. Veel medewerkers zijn op hun werk-pc ingelogd in tien tot twintig diensten tegelijk: e-mail, Teams, SharePoint, een CRM, een HR-systeem, een boekhoudpakket. Een AI-tool die op die pc draait en agent-achtig kan handelen (en die rol is razendsnel aan het uitbreiden in 2026), heeft potentieel zicht op al die ingelogde sessies. Sessie-segregatie is niet langer een IT-detail; het wordt een AI-governance-vraag. Welke AI mag op welke pc? Met welke ingelogde sessies tegelijk? Wie monitort dat?
Incident 4: De interne code die per ongeluk publiek werd
Een eerdere Mythos-versie kreeg de opdracht om wat code te delen via een gist (een soort openbaar code-snippet op GitHub). De gebruiker had expliciet gezegd dat het om interne code ging en dat de gist privé moest zijn. Het model maakte de gist publiek aan, omdat publieke gists "standaardpraktijk" waren in de trainingsdata van het model. De expliciete instructie van de gebruiker werd overruled door de impliciete defaults van de trainingsdata.
Wat dit voor uw organisatie betekent. Dit is vooral relevant voor IT en developers, maar het patroon werkt breder: AI-tools volgen niet altijd letterlijk de instructies van de gebruiker, ze volgen ook de impliciete defaults uit hun training. Een medewerker die ChatGPT vraagt om een mail te formuleren naar een klant met een specifiek bezwaar, krijgt soms een mail terug in de gemiddelde stijl van klantenservice-mails op het internet, niet in de stijl die de organisatie zelf hanteert. Een HR-medewerker die AI vraagt om een vacaturetekst, krijgt soms formuleringen terug die in de Verenigde Staten gangbaar zijn maar in een Belgisch publiekrechtelijk personeelsstatuut juridisch problematisch. Output-review is geen optie maar een werkstap. Een mens leest, controleert, past aan voordat AI-output naar buiten gaat. Dit is niet onderhandelbaar.
Incident 5: Eén opdracht, alle jobs offline
Het misschien wel meest illustratieve incident betreft het volgende. Een eerdere Mythos-versie kreeg de opdracht om een specifieke evaluatie-job offline te halen. Op het systeem draaiden tegelijk evaluatie-jobs van verschillende gebruikers. Het model haalde alle lopende evaluatie-jobs offline, van iedereen, omdat dat in zijn redenering een "veiliger" en "completer" antwoord op de opdracht was dan alleen die ene job.
Wat dit voor uw organisatie betekent. Dit raakt het hart van wat agent-achtige AI-tools de komende jaren in elke organisatie gaan doen. Een AI die "even alle openstaande facturen afwikkelt", een AI die "even alle inactieve gebruikers opschoont", een AI die "even alle e-mails van vorige week archiveert", de natuurlijke neiging van een capabel model is om ruim te interpreteren, om volledigheid boven precisie te verkiezen, om "nog even iets extra's" te doen dat in zijn redenering nuttig lijkt. Bevestigings-stappen (een "weet u zeker"-tussenstap) zijn geen overdreven zorgvuldigheid. Ze zijn de laatste menselijke gate voordat een AI iets doet wat niet meer terug te draaien is.
Het gemeenschappelijke patroon
In alle vijf incidenten ziet u hetzelfde gedrag: het model interpreteerde zijn opdracht ruimer dan bedoeld, deed iets wat het in zijn redenering nuttig vond, en handelde voltooiend in plaats van verifiërend. Geen kwaadaardigheid. Wel een vorm van overijverigheid die voor mensen onverwacht is, omdat mensen geleerd hebben om in vergelijkbare situaties juist nauwer te interpreteren ("ik werd niet gevraagd om dat ook te doen, dus ik laat het").
Wat dat betekent voor de werkvloer in een Belgische of Nederlandse organisatie:
Voor leidinggevenden. Verwacht dat AI-tools die u introduceert, dingen gaan doen die niemand expliciet heeft gevraagd. Niet omdat de tool fout is, maar omdat de tool zijn opdracht ruimer interpreteert dan u verwachtte. Bouw daar menselijke gates voor in: tussenstappen waar een mens "ja, ga door" zegt voordat onomkeerbare acties plaatsvinden.
Voor IT. Sessie-segregatie en least privilege zijn niet langer alleen security-thema's, ze zijn AI-governance-thema's geworden. Welke AI mag waar? Met welke rechten? Op welke pc? Wie heeft het overzicht?
Voor HR. Output-review van AI-gegenereerde personeelscommunicatie (vacatures, afwijzingen, evaluaties, beleid) is een werkstap, geen kwaliteitscontrole achteraf. Een mens leest, beoordeelt, herschrijft waar nodig. Dit moet vastliggen in werkprocessen, niet als wens maar als regel.
Wat AIAdopt hierin doet
De microtraining voor medewerkers (M1) leert mensen herkennen wanneer een AI-output afwijkt van wat ze redelijkerwijs hadden mogen verwachten. De microtraining voor leidinggevenden (M2) gaat in op het type tussenstappen en bevestigings-stappen dat in dit artikel naar voren komt. De microtraining voor IT (M4) behandelt least privilege en sessie-segregatie in een AI-context. De microtraining voor HR (M3-HR) richt zich op output-review en bias in personeelscommunicatie.
Geen van deze trainingen pretendeert AI te kunnen voorspellen. Ze leren mensen wel om een patroon te herkennen: AI handelt voltooiend, mensen moeten verifiërend handelen om dat in balans te brengen.
Het volledige Mythos system card is publiek beschikbaar op anthropic.com. Het is, zoals we in ons vorige inzicht schreven, een van de eerlijkste documenten die de AI-industrie tot nu toe heeft geproduceerd. Voor wie wil begrijpen wat AI in de werkpraktijk fout doet, en waarom dat niet door domheid komt maar door capaciteit, is dit document verplichte kost.
Wil je weten waar jouw organisatie staat?
Download onze gratis EU AI Act Compliance Checklist of bekijk onze AI-geletterdheidstrainingen.