de
                    array(2) {
  ["de"]=>
  array(13) {
    ["code"]=>
    string(2) "de"
    ["id"]=>
    string(1) "3"
    ["native_name"]=>
    string(7) "Deutsch"
    ["major"]=>
    string(1) "1"
    ["active"]=>
    string(1) "1"
    ["default_locale"]=>
    string(5) "de_DE"
    ["encode_url"]=>
    string(1) "0"
    ["tag"]=>
    string(2) "de"
    ["missing"]=>
    int(0)
    ["translated_name"]=>
    string(7) "Deutsch"
    ["url"]=>
    string(119) "https://www.statworx.com/content-hub/blog/explainable-ai-in-der-praxis-mit-der-richtigen-methode-die-black-box-oeffnen/"
    ["country_flag_url"]=>
    string(87) "https://www.statworx.com/wp-content/plugins/sitepress-multilingual-cms/res/flags/de.png"
    ["language_code"]=>
    string(2) "de"
  }
  ["en"]=>
  array(13) {
    ["code"]=>
    string(2) "en"
    ["id"]=>
    string(1) "1"
    ["native_name"]=>
    string(7) "English"
    ["major"]=>
    string(1) "1"
    ["active"]=>
    int(0)
    ["default_locale"]=>
    string(5) "en_US"
    ["encode_url"]=>
    string(1) "0"
    ["tag"]=>
    string(2) "en"
    ["missing"]=>
    int(0)
    ["translated_name"]=>
    string(8) "Englisch"
    ["url"]=>
    string(119) "https://www.statworx.com/en/content-hub/blog/explainable-ai-in-practice-finding-the-right-method-to-open-the-black-box/"
    ["country_flag_url"]=>
    string(87) "https://www.statworx.com/wp-content/plugins/sitepress-multilingual-cms/res/flags/en.png"
    ["language_code"]=>
    string(2) "en"
  }
}
                    
Kontakt
Content Hub
Blog Post

Explainable AI in der Praxis: Mit der richtigen Methode die Black Box öffnen

  • Expert:innen Jonas Wacker
  • Datum 15. November 2024
  • Thema Artificial IntelligenceData ScienceHuman-centered AI
  • Format Blog
  • Kategorie Technology
Explainable AI in der Praxis: Mit der richtigen Methode die Black Box öffnen

Mit dem Aufkommen immer komplexerer, mächtigerer KI-Modelle wächst auch der Bedarf an Transparenz, nicht zuletzt aufgrund rechtlicher Anforderungen. Während solche Black-Box-Modelle oft effektiver, flexibler und genauer sind als z. B. leicht nachvollziehbare Regressionsmodelle, stehen sie vor dem Problem der mangelnden Erklärbarkeit. Hier kommt Explainable AI (XAI) ins Spiel, ein zunehmend wichtiger Bestandteil sowohl in der Forschung als auch in der Praxis.
Die Nachfrage nach XAI wächst, da Unternehmen und Entwickler:innen erkennen, dass viele KI-Lösungen nicht genutzt werden, wenn sie nicht erklärbar sind – insbesondere in kritischen Bereichen wie Finance und Pharma. Ein Grund: In der Vergangenheit wurde auf XAI entweder komplett verzichtet oder lediglich oberflächlich die erstbeste Methode angewendet, um Ergebnisse in Präsentationen zu verpacken. Doch damit kommt man nicht mehr weiter.

Wir bei statworx plädieren dafür, XAI als Best-Practice im Entwicklungsprozess zu betrachten. Es muss von Anfang an in die Planung integriert werden. Dieser Blogpost richtet sich deshalb vornehmlich an Data Scientists, die tiefer in das Thema XAI einsteigen und XAI in der Praxis anwenden wollen. Wir präsentieren zehn praxisnahe Kriterien, um die richtige XAI-Methode zu finden und damit den Erfolg von KI-Projekten zu gewährleisten.

1. Welche Zielgruppe wird durch die Erklärung angesprochen?

“Erkläre {{TERM}} für ein fünfjähriges Kind” ist ein bekannter ChatGPT Prompt. Darin drückt sich das implizite Verständnis aus: Erklärungen müssen sich an den Bedürfnissen und Kenntnissen der Zielgruppe ausrichten, um effektiv zu sein. Wenn ich von einem Thema wenig oder nichts verstehe, hilft mir vielleicht eine Erklärung für ein Kleinkind am besten weiter. Leider hat die Bedeutung von Erklärungen in KI-Projekte noch keinen Einzug erhalten. XAI ist ein junges Forschungsfeld und findet bisher vornehmlich unter Entwickler:innen Beachtung, die es für das Debugging ihrer KI-Modelle einsetzten. Mit der Verbreitung von KI-Anwendungen in immer mehr Bereichen betreten allerdings jetzt zahlreiche neue Stakeholder ohne technischen Hintergrund das Feld und fordern Erklärungen für die Funktionsweise “ihrer” KI. Diese neuen Zielgruppen bringen unterschiedliche Kenntnisse, aber auch Motivationen und Fragestellungen mit. XAI muss in der Zukunft all diese Stakeholder adäquat ansprechen, um Akzeptanz zu finden und Wert zu schaffen.

2. Welcher Geschäftswert soll durch die Erklärungen geschaffen werden?

Nicht jedes Problem erfordert den Einsatz von KI. Gleichermaßen erfordert nicht jede KI zwingend Erklärbarkeit. XAI ist in der Praxis kein Selbstzweck, sondern ein Mittel zur Schaffung eines konkreten Mehrwerts. Daher sollte bereits zu Projektbeginn entschieden werden, welches Maß an Erklärbarkeit für die zu entwickelnde KI-Lösung erforderlich ist. Wenn mir ein Musik-Streamingdienst einen neuen Song vorschlägt, möchte ich keinen zwölfseitigen PDF-Bericht lesen, der die KI-Entscheidung im Detail erklärt. Wenn eine KI allerdings eine Behandlungsempfehlung an meinen Arzt ausspricht, ist genau diese detaillierte Nachvollziehbarkeit absolut notwendig, damit mein Arzt sicherstellen kann, dass diese Empfehlung die sinnvollste und angemessenste ist. Kurzum: Die Einbindung von XAI erfordert zusätzlichen Entwicklungsaufwand, der durch einen klar definierten Nutzen für das Unternehmen gerechtfertigt werden muss. Deshalb ist es erfolgsentscheidend, diesen Nutzen möglichst klar zu erfassen und zu quantifizieren, bevor die erste Zeile Code geschrieben wird.

3. Welche Fragen sollen die Erklärungen beantworten?

Eine Erklärung ist fundamental eine Antwort auf eine Frage. Der Nutzen von XAI bemisst sich also daran, wie gut es die Fragen der Stakeholder adressiert. In KI-Projekten können diverse Arten von Fragen auftreten, die unterschiedliche XAI-Ansätze und Methoden erfordern. Häufig wollen Stakeholder zum Beispiel wissen, wie eine bestimmte KI-Entscheidung zustande kam. Methoden wie “SHAP” oder “LIME” können dabei helfen, die relevanten Einflussfaktoren zu identifizieren und deren genauen Einfluss auf die Vorhersage zu beschreiben. Ein:e abgelehnte:r Bewerber:in möchte vielleicht wissen, was ihr oder ihm zur Einstellung gefehlt hat. Hier können “Counterfactual Explanations” oder Prototypen und Criticisms helfen, die Entscheidung nachzuvollziehen und konkrete Verbesserungen für das nächste Interview abzuleiten. Entscheidungsträger:innen hingegen würden gerne wissen, ob sie einer KI-Entscheidung trauen können oder nicht. Hier können XAI-Methoden wie “Conformal Predictions” Vorhersageunsicherheiten des KI-Modells aufdecken. Die Anzahl der möglichen Fragen ist endlos. Das Ziel sollte daher sein, die wirklich relevanten Fragen zu definieren und adäquate XAI-Methoden für deren Beantwortung zu Rate zu ziehen.

4. Wie wichtig ist die Exaktheit der Zahlen in der Erklärung?

In der Mathematik gilt: Je exakter, desto besser. Und tatsächlich: Idealerweise sollte uns XAI stets exakte Berechnungen liefern, die das Modellverhalten fehlerfrei beschreiben. Ein fundamentales Problem mit diesem Ansatz ist, dass wir XAI anwenden, weil wir unser Modell nicht verstehen. Ob eine Erklärung also exakt ist oder nicht, lässt sich nicht ohne Weiteres ermitteln. Deswegen sollten wir XAI in der Praxis stets als Approximation verstehen. Klar ist dennoch, dass, je nach Daten und Anwendungsfall manche Methoden exakter sind als andere. Die beliebten “Shapley Values” lassen sich zum Beispiel exakt berechnen, was allerdings bei großen Datensätzen zu explodierender Rechenzeit führen kann. Eine Approximation der Shapley Values kann hingegen häufig in einem Bruchteil der Zeit ermittelt werden. Geht es lediglich um eine grobe Einordnung des Modellverhaltens, sollten wir offen dafür sein, ein gewisses Maß an Exaktheit für mehr Effizienz einzutauschen. In kritischen Anwendungsfällen, in denen jede Nachkommastelle zählt, muss eine höhere Rechenzeit allerdings in Kauf genommen werden.

5. Welcher Datentyp liegt vor?

Die Welt der Daten ist vielfältig: Neben tabellarischen Daten begegnen uns überall auch Bilder, Texte, Audios und Graphen. Obwohl viele XAI-Algorithmen modellagnostisch sind, sind nur die wenigsten datentyp-agnostisch. Zwar lassen sich SHAP, LIME und Co. oft abstrahieren und somit auf nicht-tabellarische Daten anwenden. Allzu oft ist hier aber die Forschung noch recht dünn und nur wenige vorgefertigte Code-Bibliotheken sind verfügbar. Das resultiert in einem hohen Aufwand für die Recherche, Implementierung und Verprobung eigener Algorithmen. Ein weiterer Aspekt ist, dass viele Datentypen mit der Anwendung bestimmter Modelltypen assoziiert sind. Zum Beispiel findet bei tabellarischen Daten oft ein “Random Forest” Einsatz, während Bilddaten zumeist mit neuronalen Netzen wie CNNs oder Transformern verarbeitet werden. In der Praxis kann der Datentyp also die Bandbreite der verfügbaren, insbesondere aber die der umsetzbaren, XAI-Methoden einschränken. Andererseits eröffnet aber die Beschäftigung mit dem Datentyp auch den Weg zu modellspezifischen Erklärungsalgorithmen.

6. Welche Dimensionalität haben die Daten?

Je komplexer ein Wirkungszusammenhang, umso schwerer ist dessen Erklärung. Das führt dazu, dass XAI-Entwickler:innen zu den wenigen Data Scientists gehören, die von großen Datensätzen eher verunsichert als ermutigt sind. In der Praxis ist dabei insbesondere die Anzahl der Features (bzw. Spalten in einer Tabelle) relevant. Hier gilt: Je mehr Features vorhanden sind und je stärker diese korrelieren, desto aufwendiger wird die Berechnung einer akkuraten Erklärung. Anders gesagt: Durch eine exakte Berechnung von SHAP können Korrelationen zwischen allen Features berücksichtigt werden. Doch diese Eigenschaft, die bei zehn Features verlockend klingt, wird bei mehr als 100 Features zum Problem für die Berechnung.

Wenn also Daten mit vielen Features vorliegen, sollten drei Ansätze geprüft werden:

1. Oft besteht die Möglichkeit, Features zu gruppieren (z. B. durch Korrelationsanalyse) und Erklärungen mit gruppierten Features zu berechnen.

2. Beliebte Methoden wie SHAP bieten oft die Möglichkeit, durch Sampling einen Kompromiss zwischen Exaktheit und Recheneffizienz zu erzielen.

3. Auch simplere Methoden, die Feature-Interaktionen ignorieren, können geeignet sein. Für globale Feature Importance, zum Beispiel, lässt sich SHAP durch die effizientere Permutation Feature Importance (PFI) ersetzen.

7. Welcher Modelltyp und welches Framework werden für Training und Inferenz genutzt?

Neben modellagnostischen Methoden wie SHAP und ALE enthält der XAI-Werkzeugkoffer zahlreiche modellspezifische Methoden und effizientere Implementierungen existierender Methoden. Für mathematisch differenzierbare Modelle wie Neuronale Netze kann für die Berechnung von Feature Importance zum Beispiel “Integrated Gradients” angewandt werden. Für baumbasierte Modelle wie Random Forests liegt mit Tree-SHAP eine effiziente SHAP-Implementierung vor. Im Einzelfall kann durch modellspezifische Methoden eine bessere Erklärung erreicht oder die Recheneffizienz erhöht werden. In der Praxis ist neben dem Modelltyp auch das Framework relevant, in dem das Modell entwickelt wurde bzw. in dem die Modellinferenz stattfindet. Das liegt insbesondere daran, dass Code-Bibliotheken für XAI oft für bestimmte Frameworks ausgelegt sind und gegebenenfalls aufwendig adaptiert werden müssen. Ist eine Python-Bibliothek zum Beispiel auf ein Scikit-Learn-Modell ausgelegt (model.predict(), model.predict_proba(), model.score(), etc.), muss für Modelle aus anderen Frameworks wie XGB, Tensorflow oder Pytorch gegebenenfalls ein Wrapper geschrieben werden, bevor der Code funktioniert. Modelltyp und Framework haben also direkte Implikationen für die Implementierung von XAI-Methoden.

8. Besteht Zugriff auf das Modell und die Trainingsdaten?

Um Erklärungen zu berechnen, kann man idealerweise auf das Modell, dessen Parameter und die gesamten Trainingsdaten zugreifen. In der Praxis erhält man allerdings oft nur Zugriff auf eine Inferenz-API, die Teile des Modells vor den Nutzer:innen versteckt. Wer beispielsweise GPT-4 über die OpenAI API abruft, hat keinen direkten Zugriff auf dessen Modellparameter. Einige XAI-Methoden, insbesondere modellspezifische, können in einem solchen Szenario bereits eliminiert werden. Stattdessen sollten modellagnostische Methoden wie SHAP oder LIME in Betracht gezogen werden, da diese auf Ebene der Inputs und Outputs arbeiten. Auch auf Trainingsdaten (oder zumindest einen Teil davon) gewährt OpenAI keinen Zugriff. Einige XAI-Methoden wie SHAP sind allerdings auf einen Referenzdatensatz angewiesen, um korrekte Schlussfolgerungen über die Struktur und Zusammenhänge der dem Modell zugrunde liegenden Daten zu treffen. Der Zugriff auf das Modell und die Trainingsdaten ist ein Faktor, der besonders häufig übersehen wird und häufig zu Problemen führt.

9. Welche Recheninfrastruktur soll zur Berechnung der Erklärungen genutzt werden?

Während der Entwicklung liegen Machine-Learning-Modelle und XAI-Algorithmen oft auf lokalen Notebooks. Diese sind zwar leichter zu erstellen, aber nicht sicher, zuverlässig und flexibel genug für eine Inbetriebnahme der KI-Lösung. Wenn z. B. zusätzlich zu den Modellvorhersagen XAI-Komponenten wie Shapley Values berechnet werden sollen, muss vorherdefiniert sein, wann und wie diese zusätzliche Rechenleistung erbracht wird. Insbesondere große Deep-Learning Modelle laufen oft auf einem virtuellen Cloud-Rechner, der von Endnutzer:innen nur über eine API angezapft wird. Dadurch stellt sich die Frage, wo, wann und wie zusätzliche XAI-Algorithmen ausgeführt werden sollen.

Hinzu kommt ein zweites potenzielles Problem: Eine XAI-Methode funktioniert zwar prinzipiell, lässt sich allerdings auf den verfügbaren Rechenressourcen nicht zeiteffizient umsetzen. Dieses Risiko kann durch eine dedizierte Vorab-Planung der XAI-Komponenten minimiert werden. Je nach Recheninfrastruktur kommen aber auch andere Lösung infrage: Beispielsweise lässt sich die Berechnung von Shapley Values auf Cloud-Plattformen auf mehrere Rechner verteilen, um die Rechenzeit drastisch zu reduzieren. Grundsätzlich gilt: XAI ist kein “Anhängsel” eines Modells, sondern eine eigene Softwarekomponente mit individuellen Risiken und Potentialen.

10. In welcher Frequenz sollen neue Erklärungen berechnet werden?

XAI-Methoden unterscheiden sich stark hinsichtlich ihrer Recheneffizienz. Wer zum Beispiel globale Feature Importance berechnen will, wird mit der Permutation Feature Importance schneller sein als mit SHAP. Die Recheneffizienz der einmaligen Ausführung ist aber nur einer von zwei wichtigen Faktoren. In der Praxis werden Erklärungen mehrmals berechnet. Eine wöchentliche SHAP-Analyse verbraucht dann erheblich weniger Ressourcen als stündlich berechnete Permutation Feature Importance. Wichtig ist deshalb, die Neuberechnungsfrequenz in die Planung und Entwicklung der Recheninfrastruktur mit einzubeziehen. In einer idealen Welt ist die Neuberechnungsfrequenz statisch, z. B. einmal wöchentlich. Denkbar sind aber auch Szenarien, in denen Erklärungen auf Abruf berechnet werden und die Berechnungsfrequenz Trends, Saisonalitäten und Zufallseffekten unterliegt. Das Einbeziehen der Berechnungsfrequenz ist somit essenziell, um einen kontrollierten Betrieb des KI-Systems zu gewährleisten.

Fazit

Die Integration von Explainable AI (XAI) in den Entwicklungsprozess von KI-Modellen ist nicht mehr nur ein optionaler Zusatz, sondern eine notwendige Best Practice. Der Weg zu mehr Transparenz in der KI ist entscheidend, da bereits heute viele KI-Lösungen aufgrund mangelnder Erklärbarkeit ungenutzt bleiben. Um XAI effektiv zu implementieren, müssen Unternehmen und Entwickler:innen strategisch vorgehen und ihre Methoden sorgfältig auswählen.

In diesem Beitrag haben wir zehn praxisnahe Kriterien vorgestellt, die bei der Auswahl der richtigen XAI-Methoden helfen sollen. Von der Zielgruppenanalyse über die Geschäftsziele bis hin zu technischen Aspekten wie Datentypen und Recheninfrastruktur: Jedes Kriterium spielt eine wichtige Rolle, um Erklärbarkeit als Mittel zur Wertschöpfung, das von Anfang an in die Planung integriert werden muss, zu nutzen. So kann sichergestellt werden, dass KI-Lösungen nicht nur leistungsfähig, sondern auch verständlich und vertrauenswürdig sind. Unternehmen, die XAI als integralen Bestandteil ihrer KI-Strategie betrachten, werden in der Lage sein, ihre Modelle besser zu erklären, Vertrauen zu schaffen und letztlich erfolgreichere KI-Projekte umzusetzen. Tarik Ashry Jonas Wacker

Mehr erfahren!

Als eines der führenden Beratungs- und Entwicklungs­unternehmen für Data Science und KI begleiten wir Unternehmen in die datengetriebene Zukunft. Erfahre mehr über statworx und darüber, was uns antreibt.
Über uns