Een tijdje terug schreef ik een blog over waarom je algoritmen niet perse moet willen begrijpen. Die blog maakte veel reacties los. Veel daarvan kwam neer op: je snapt toch wel dat vooringenomenheid moet worden bestreden? Mijn antwoord daarop is: ja zeker wel! De vraag is alleen of je daarbij vooral het proces centraal moet stellen of juist de uitkomsten kritisch moet beschouwen.

Een voorbeeld. Als leidinggevende met een achtergrond waarin een dubbeltje niet snel een kwartje zou worden ben ik gespitst op vooringenomenheid in selectieprocessen. Gelukkig is daar steeds meer aandacht voor. Veel van die aandacht gaat naar het proces van selectie zonder vooroordelen (denk aan het weglaten van identificerende gegevens uit brieven en CV’s om de kans op vooringenomenheid te verkleinen).

Maar of een selectieproces zonder vooringenomenheid was kun je ook anders beoordelen, namelijk door de uitkomsten te beschouwen. De vertegenwoordiging van iedereen in de samenleving is best een goede graadmeter. Kort geleden veranderden veel vrouwen op LinkedIn hun naam tijdelijk in Peter. Ze deden dat om aandacht te vragen voor het feit dat er in 2022 nog steeds veel meer mannelijke dan vrouwelijke bestuurders zijn. Sterker nog, er zijn zelfs meer bestuurders die Peter heten dan dat er vrouwelijke bestuurders zijn. De uitkomsten van selectie zijn niet zonder vooroordelen, zo blijkt.

Ik ben er daarom voorstander van om ook eisen te stellen aan de uitkomsten van selectieprocessen. Bijvoorbeeld met een vrouwenquotum, maar eigenlijk breder nog namelijk door eisen te stellen aan inclusie in het algemeen.

Dat is ook de reden dat ik niet perse vind dat je algoritmen moet willen begrijpen. Het zijn de uitkomsten die tellen. Deze moeten zonder vooringenomenheid zijn. Dat is, wat mij betreft, misschien wel het belangrijkst om te blijven toetsen.

In de recent uitgebrachte Leidraad voor kwalitatieve diagnostische en prognostische toepassingen van AI in de zorg heeft dat een belangrijke plek gekregen. Net als bij andere medische interventies geldt ook bij het gebruik van AI in de zorg: het zijn de uitkomsten die tellen. In de leidraad wordt daarom beschreven hoe je de waarden van algoritmen in de zorg onderzoekt met ook aandacht voor bias in de werking.

Bij de externe validatie van het model dient men verder te kijken dan alleen naar de voorspelkracht en medische waarde. Ook evaluatie van eerlijkheid en bias is van groot belang. Ongelijke behandeling ontstaat meestal door een vorm van algoritmische bias

Verschillende vormen van algoritmische bias worden onderscheiden. Het begrippenkader van Suresh & Guttag en de daarin genoemde vormen van bias wordt daarbij toegepast.

Figuur met bias in AI

In de leidraad voor kwalitatieve diagnostische en prognostische toepassingen van AI in de zorg worden niet alleen de algoritmen maar vooral de effecten en uitkomsten onderwerp van onderzoek. Zoals de gezondheidsuitkomsten op de lange termijn en op de korte termijn, voor zowel het individu als de populatie.

Figuur beoordelen AI op uitkomsten Beoordelen van uitkomsten: dat is zoals in de gezondheidszorg interventies worden beoordeeld. Het voorkomen van ongewenste vooringenomenheid daarin telt daarmee ook. Dat geldt voor handelingen door mensen in de zorg, en ook voor algoritmen.

Daarom ben ik voorstander van het beoordelen van processen (van zowel mensen als algoritmen) op tenminste hun uitkomsten. En dus, om de cirkel rond te maken, van quota gericht op inclusiviteit bij selectieprocessen.

Ik ben slecht in schaken. Zelfs zo slecht dat ik zelden win. Als ik toch een beetje een kans wil hebben dan speel ik bij voorkeur tegen iemand die direct en precies kan uitleggen waarom een zet is gedaan. Want de kans dat zo iemand echt goed kan schaken, is niet zo groot.

Over hoe mensen beslissen is veel literatuur en er wordt nog steeds veel onderzoek naar gedaan. Beroemd onderzoek, ook in Nederland. Zo als dat van Adriaan de Groot. Een psycholoog die in 1946 cum laude promoveerde op “Het denken van den schaker”.

enter image description here

Ook in de zorg wordt veel onderzoek naar beslissen door zorgprofessionals gedaan. In het boek “Practical Decision Making in Health Care Ethics: Cases and Concepts” trof ik ook weer schaken als voorbeeld aan.

One way to grasp the difference between a rational choice strategy and a recognition-primed decision strategy is to think of how a computer plays a game of chess. The computer uses a rational choice strategy. It considers all the possible moves, then the opponent’s possible counter moves to these moves, then its possible moves after these counter moves, and so on. After comparing thousands of alternatives, it picks the best move.

This artificial intelligence is so powerful that good computer programs can now beat the best chess players. The beginning chess player, by the way, also relies on rational choice strategy. He compares the advantages and disadvantages of possible moves to find the best one. Of course his ability to compare moves and counter moves is far less than that of a computer. The expert player, on the other hand, relies chiefly on a recognition-primed decision approach. He perceives key patterns on the board, considers them rather briefly, and then makes his moves. He has neither the time nor the cognitive ability to calculate the huge number of possibilities implied by each move he could make.

Beslissingen nemen is bij mensen veel meer dan een rationeel afwegingsproces. Er zit, onder andere, veel patroonherkenning in. En het gaat, zowel bij experts als bij anderen, met regelmaat fout. Mooie voorbeelden daarvan, en waarom ze ontstaan, tref je aan in het boek “How doctors think”. Menselijke beslissers, zoals artsen, die een bepaald patroon vaak hebben gezien, delen een nieuw probleem dat er op lijkt al snel bij diezelfde groep in. “Availability heuristics” heet dat. Daniel Kahneman won voor die theorie in 2002 een Nobelprijs.

Als er niet alleen een rationeel afwegingsproces is, dan is het veel lastiger achteraf de keuze uit te leggen. Groopman, de schrijver van “How doctors think”, adviseert patiënten daarom vooral vragen te stellen die voorkomen dat fouten in het denken ongemerkt blijven. Vragen als “Kan het nog iets anders zijn?” of “Is er iets dat niet in het plaatje past?”. Vragen die de patroonherkenning uitdagen. Zijpad: omdat huisartsen minder in een specialistische tunnel zitten is Groopman fan van een eerste triage door huisartsen.

In het debat over algoritmen, en zeker over hun toepassing binnen de overheid, wordt – wat mij betreft - onterecht vooral de aandacht gericht op registers van algoritmen en het eisen van inzicht in hun werking. Dat kan bij simpele algoritmen, die eigenlijk rekenregels zijn. Zodra het complexer wordt, zoals in het geval van zelflerende algoritmen en patroonherkenning, wordt dat een stuk lastiger. Net als bij mensen. En het is ook helemaal niet nodig.

Als je niet alleen focust op de precieze werking van een algoritme, dan kom je op andere oplossingen. Ik noem er 3.

  1. Consultatie, second-opinion en redundantie
    Is de keuze echt lastig, dan wordt in de zorg vaak een collega geconsulteerd. Of, als de patiënt het initiatief neemt, een second-opinion gevraagd. In machines die het altijd moeten doen, denk aan ruimtevaartuigen, worden beslissingen vaak ook door meerdere systemen of algoritmen genomen. Ik vind het geen gek idee om dat voor gevoelige beslissingen op andere gebieden ook te doen. Dat kan op heel veel manieren. Door meerdere algoritmen tegelijk bijvoorbeeld, met steekproeven en second opinion door mensen of door bij voortduring te monitoren op onregelmatigheden en die te willen gebruiken om van te leren.
  2. Transparant leren en verbeteren op basis van uitkomsten
    In de zorg is het gebruikelijk geworden: de eigen uitkomsten gebruiken om van te leren en te verbeteren. Die uitkomsten geven inzicht in verschillen die relevant kunnen zijn. Tussen ziekenhuizen, of tussen groepen die ze behandelen. Dat kan ook op andere terreinen. Door uitkomsten te monitoren en onderzoek te doen naar gevonden verschillen kun je niet alleen individuele fouten vinden en waar mogelijk herstellen, maar ook structurele fouten repareren.
    Dat, overigens, is niet altijd eenvoudig. Er is bijvoorbeeld, begrijpelijk, veel weerstand tegen het gebruiken van nationaliteit of afkomst bij beslissingen. Ook in de zorg is men er voorzichtig mee. Maar het is in sommige gevallen een heel noodzakelijk gegeven. Uit onderzoek naar etniciteit en kanker, in de Verenigde Staten bijvoorbeeld, blijken er verschillen te bestaan tussen etnische groepen als het gaat om de uitkomsten van diagnose en behandeling van kanker. Verschillen die verklaard kunnen worden door allerlei factoren, zoals sociaal economische en culturele. Maar ook door genetische factoren. Nu steeds meer bekend wordt over genetische factoren van ziekte, en ook behandeling steeds persoonlijker wordt, is het vastleggen van dergelijke gegevens juist een vorm van goede zorg. Zoals bijvoorbeeld ook het aanbod van stamcellen wereldwijd sterk verschilt tussen regio’s, waardoor de kans op een passende behandeling afhangt van je afkomst. Verschillen in uitkomsten onderzoeken vergt daarom een open blik, transparantie en verantwoording.
  3. Ethische begeleiding
    En daarmee kom ik bij mijn derde punt: of het nu om mensen (dokters bijvoorbeeld) of algoritmen gaat, het is de inzet ervan die bepalend is. De bekende dooddoener: met een hamer kun je een spijker inslaan, maar ook een ander pijn doen. Bij de inzet van technologie als CoronaMelder is ethiek daarom voortdurend meegenomen. Dat deden we samen met prof. dr. ir Peter-Paul Verbeek. Met het ECP ontwikkelde hij de aanpak Begeleidingsethiek. Het ministerie van VWS ontwikkelde de daarop gebaseerde “handleiding aanpak begeleidingsethiek voor AI & digitale zorg”. Ethiek beperkt zich natuurlijk niet tot algoritmen. In de zorg is het gebruikelijk om nieuwe onderzoeken, bijvoorbeeld, altijd eerst van een medisch-ethische toetsing te voorzien.


Ik ben, dit alles overwegend, geen fan van een puur instrumentele benadering van AI en algoritmen. Een algoritmeregister en een volledige uitleg van een algoritme (als dat al mogelijk is) voegen niet zoveel toe. Niet in de zorg, niet in het openbaar bestuur. Het gaat om hoe we er mee omgaan. Om de waarborgen, de transparantie en de ethiek van de inzet. Als je je daarop richt kom je tot hele andere oplossingen. Oplossingen die, als je om je heen kijkt in sectoren als de gezondheidszorg, al lang bestaan en hun werking hebben bewezen.

PS
We hebben nog veel te doordenken, zoals terecht door Floor Terra opgemerkt. Denkrichtingen moeten kritisch worden beschouwd. Wat betekent het niet altijd kunnen uitleggen van een algoritme bijvoorbeeld voor het recht op controle van de verwerking en van correctie?

Rationele mensen en niet te vertrouwen algoritmen

In de gesprekken naar aanleiding van deze blog viel mij op dat vaak wordt gedacht dat mensen rationeel zijn en hun handelen kunnen uitleggen en algoritmen niet. Algoritmen zouden daarom met minder vertrouwen moeten worden bekeken. Dat onderscheid maak ik zelf niet. Beide vormen van handelen moeten, wat mij betreft, op dezelfde manier worden beschouwd. Of een diagnose nu door een dokter of een algoritme wordt gesteld: de eisen zijn hetzelfde. Ook omdat mensen niet zo rationeel en bewust handelen als soms wordt gedacht en algoritmen de kans op discriminatie daarom juist ook kunnen verkleinen.