Mit dem Aufkommen immer komplexerer, mächtigerer KI-Modelle wächst auch der Bedarf an Transparenz, nicht zuletzt aufgrund rechtlicher Anforderungen. Während solche Black-Box-Modelle oft effektiver, flexibler und genauer sind als z. B. leicht nachvollziehbare Regressionsmodelle, stehen sie vor dem Problem der mangelnden Erklärbarkeit. Hier kommt Explainable AI (XAI) ins Spiel, ein zunehmend wichtiger Bestandteil sowohl in der Forschung als auch in der Praxis.
Die Nachfrage nach XAI wächst, da Unternehmen und Entwickler:innen erkennen, dass viele KI-Lösungen nicht genutzt werden, wenn sie nicht erklärbar sind – insbesondere in kritischen Bereichen wie Finance und Pharma. Ein Grund: In der Vergangenheit wurde auf XAI entweder komplett verzichtet oder lediglich oberflächlich die erstbeste Methode angewendet, um Ergebnisse in Präsentationen zu verpacken. Doch damit kommt man nicht mehr weiter.
Wir bei statworx plädieren dafür, XAI als Best-Practice im Entwicklungsprozess zu betrachten. Es muss von Anfang an in die Planung integriert werden. Dieser Blogpost richtet sich deshalb vornehmlich an Data Scientists, die tiefer in das Thema XAI einsteigen und XAI in der Praxis anwenden wollen. Wir präsentieren zehn praxisnahe Kriterien, um die richtige XAI-Methode zu finden und damit den Erfolg von KI-Projekten zu gewährleisten.
1. Welche Zielgruppe wird durch die Erklärung angesprochen?
“Erkläre {{TERM}} für ein fünfjähriges Kind” ist ein bekannter ChatGPT Prompt. Darin drückt sich das implizite Verständnis aus: Erklärungen müssen sich an den Bedürfnissen und Kenntnissen der Zielgruppe ausrichten, um effektiv zu sein. Wenn ich von einem Thema wenig oder nichts verstehe, hilft mir vielleicht eine Erklärung für ein Kleinkind am besten weiter. Leider hat die Bedeutung von Erklärungen in KI-Projekte noch keinen Einzug erhalten. XAI ist ein junges Forschungsfeld und findet bisher vornehmlich unter Entwickler:innen Beachtung, die es für das Debugging ihrer KI-Modelle einsetzten. Mit der Verbreitung von KI-Anwendungen in immer mehr Bereichen betreten allerdings jetzt zahlreiche neue Stakeholder ohne technischen Hintergrund das Feld und fordern Erklärungen für die Funktionsweise “ihrer” KI. Diese neuen Zielgruppen bringen unterschiedliche Kenntnisse, aber auch Motivationen und Fragestellungen mit. XAI muss in der Zukunft all diese Stakeholder adäquat ansprechen, um Akzeptanz zu finden und Wert zu schaffen.
2. Welcher Geschäftswert soll durch die Erklärungen geschaffen werden?
Nicht jedes Problem erfordert den Einsatz von KI. Gleichermaßen erfordert nicht jede KI zwingend Erklärbarkeit. XAI ist in der Praxis kein Selbstzweck, sondern ein Mittel zur Schaffung eines konkreten Mehrwerts. Daher sollte bereits zu Projektbeginn entschieden werden, welches Maß an Erklärbarkeit für die zu entwickelnde KI-Lösung erforderlich ist. Wenn mir ein Musik-Streamingdienst einen neuen Song vorschlägt, möchte ich keinen zwölfseitigen PDF-Bericht lesen, der die KI-Entscheidung im Detail erklärt. Wenn eine KI allerdings eine Behandlungsempfehlung an meinen Arzt ausspricht, ist genau diese detaillierte Nachvollziehbarkeit absolut notwendig, damit mein Arzt sicherstellen kann, dass diese Empfehlung die sinnvollste und angemessenste ist. Kurzum: Die Einbindung von XAI erfordert zusätzlichen Entwicklungsaufwand, der durch einen klar definierten Nutzen für das Unternehmen gerechtfertigt werden muss. Deshalb ist es erfolgsentscheidend, diesen Nutzen möglichst klar zu erfassen und zu quantifizieren, bevor die erste Zeile Code geschrieben wird.
3. Welche Fragen sollen die Erklärungen beantworten?
Eine Erklärung ist fundamental eine Antwort auf eine Frage. Der Nutzen von XAI bemisst sich also daran, wie gut es die Fragen der Stakeholder adressiert. In KI-Projekten können diverse Arten von Fragen auftreten, die unterschiedliche XAI-Ansätze und Methoden erfordern. Häufig wollen Stakeholder zum Beispiel wissen, wie eine bestimmte KI-Entscheidung zustande kam. Methoden wie “SHAP” oder “LIME” können dabei helfen, die relevanten Einflussfaktoren zu identifizieren und deren genauen Einfluss auf die Vorhersage zu beschreiben. Ein:e abgelehnte:r Bewerber:in möchte vielleicht wissen, was ihr oder ihm zur Einstellung gefehlt hat. Hier können “Counterfactual Explanations” oder Prototypen und Criticisms helfen, die Entscheidung nachzuvollziehen und konkrete Verbesserungen für das nächste Interview abzuleiten. Entscheidungsträger:innen hingegen würden gerne wissen, ob sie einer KI-Entscheidung trauen können oder nicht. Hier können XAI-Methoden wie “Conformal Predictions” Vorhersageunsicherheiten des KI-Modells aufdecken. Die Anzahl der möglichen Fragen ist endlos. Das Ziel sollte daher sein, die wirklich relevanten Fragen zu definieren und adäquate XAI-Methoden für deren Beantwortung zu Rate zu ziehen.
4. Wie wichtig ist die Exaktheit der Zahlen in der Erklärung?
In der Mathematik gilt: Je exakter, desto besser. Und tatsächlich: Idealerweise sollte uns XAI stets exakte Berechnungen liefern, die das Modellverhalten fehlerfrei beschreiben. Ein fundamentales Problem mit diesem Ansatz ist, dass wir XAI anwenden, weil wir unser Modell nicht verstehen. Ob eine Erklärung also exakt ist oder nicht, lässt sich nicht ohne Weiteres ermitteln. Deswegen sollten wir XAI in der Praxis stets als Approximation verstehen. Klar ist dennoch, dass, je nach Daten und Anwendungsfall manche Methoden exakter sind als andere. Die beliebten “Shapley Values” lassen sich zum Beispiel exakt berechnen, was allerdings bei großen Datensätzen zu explodierender Rechenzeit führen kann. Eine Approximation der Shapley Values kann hingegen häufig in einem Bruchteil der Zeit ermittelt werden. Geht es lediglich um eine grobe Einordnung des Modellverhaltens, sollten wir offen dafür sein, ein gewisses Maß an Exaktheit für mehr Effizienz einzutauschen. In kritischen Anwendungsfällen, in denen jede Nachkommastelle zählt, muss eine höhere Rechenzeit allerdings in Kauf genommen werden.
5. Welcher Datentyp liegt vor?
Die Welt der Daten ist vielfältig: Neben tabellarischen Daten begegnen uns überall auch Bilder, Texte, Audios und Graphen. Obwohl viele XAI-Algorithmen modellagnostisch sind, sind nur die wenigsten datentyp-agnostisch. Zwar lassen sich SHAP, LIME und Co. oft abstrahieren und somit auf nicht-tabellarische Daten anwenden. Allzu oft ist hier aber die Forschung noch recht dünn und nur wenige vorgefertigte Code-Bibliotheken sind verfügbar. Das resultiert in einem hohen Aufwand für die Recherche, Implementierung und Verprobung eigener Algorithmen. Ein weiterer Aspekt ist, dass viele Datentypen mit der Anwendung bestimmter Modelltypen assoziiert sind. Zum Beispiel findet bei tabellarischen Daten oft ein “Random Forest” Einsatz, während Bilddaten zumeist mit neuronalen Netzen wie CNNs oder Transformern verarbeitet werden. In der Praxis kann der Datentyp also die Bandbreite der verfügbaren, insbesondere aber die der umsetzbaren, XAI-Methoden einschränken. Andererseits eröffnet aber die Beschäftigung mit dem Datentyp auch den Weg zu modellspezifischen Erklärungsalgorithmen.
6. Welche Dimensionalität haben die Daten?
Je komplexer ein Wirkungszusammenhang, umso schwerer ist dessen Erklärung. Das führt dazu, dass XAI-Entwickler:innen zu den wenigen Data Scientists gehören, die von großen Datensätzen eher verunsichert als ermutigt sind. In der Praxis ist dabei insbesondere die Anzahl der Features (bzw. Spalten in einer Tabelle) relevant. Hier gilt: Je mehr Features vorhanden sind und je stärker diese korrelieren, desto aufwendiger wird die Berechnung einer akkuraten Erklärung. Anders gesagt: Durch eine exakte Berechnung von SHAP können Korrelationen zwischen allen Features berücksichtigt werden. Doch diese Eigenschaft, die bei zehn Features verlockend klingt, wird bei mehr als 100 Features zum Problem für die Berechnung.
Wenn also Daten mit vielen Features vorliegen, sollten drei Ansätze geprüft werden:
1. Oft besteht die Möglichkeit, Features zu gruppieren (z. B. durch Korrelationsanalyse) und Erklärungen mit gruppierten Features zu berechnen.
2. Beliebte Methoden wie SHAP bieten oft die Möglichkeit, durch Sampling einen Kompromiss zwischen Exaktheit und Recheneffizienz zu erzielen.
3. Auch simplere Methoden, die Feature-Interaktionen ignorieren, können geeignet sein. Für globale Feature Importance, zum Beispiel, lässt sich SHAP durch die effizientere Permutation Feature Importance (PFI) ersetzen.
7. Welcher Modelltyp und welches Framework werden für Training und Inferenz genutzt?
Neben modellagnostischen Methoden wie SHAP und ALE enthält der XAI-Werkzeugkoffer zahlreiche modellspezifische Methoden und effizientere Implementierungen existierender Methoden. Für mathematisch differenzierbare Modelle wie Neuronale Netze kann für die Berechnung von Feature Importance zum Beispiel “Integrated Gradients” angewandt werden. Für baumbasierte Modelle wie Random Forests liegt mit Tree-SHAP eine effiziente SHAP-Implementierung vor. Im Einzelfall kann durch modellspezifische Methoden eine bessere Erklärung erreicht oder die Recheneffizienz erhöht werden. In der Praxis ist neben dem Modelltyp auch das Framework relevant, in dem das Modell entwickelt wurde bzw. in dem die Modellinferenz stattfindet. Das liegt insbesondere daran, dass Code-Bibliotheken für XAI oft für bestimmte Frameworks ausgelegt sind und gegebenenfalls aufwendig adaptiert werden müssen. Ist eine Python-Bibliothek zum Beispiel auf ein Scikit-Learn-Modell ausgelegt (model.predict(), model.predict_proba(), model.score(), etc.), muss für Modelle aus anderen Frameworks wie XGB, Tensorflow oder Pytorch gegebenenfalls ein Wrapper geschrieben werden, bevor der Code funktioniert. Modelltyp und Framework haben also direkte Implikationen für die Implementierung von XAI-Methoden.
8. Besteht Zugriff auf das Modell und die Trainingsdaten?
Um Erklärungen zu berechnen, kann man idealerweise auf das Modell, dessen Parameter und die gesamten Trainingsdaten zugreifen. In der Praxis erhält man allerdings oft nur Zugriff auf eine Inferenz-API, die Teile des Modells vor den Nutzer:innen versteckt. Wer beispielsweise GPT-4 über die OpenAI API abruft, hat keinen direkten Zugriff auf dessen Modellparameter. Einige XAI-Methoden, insbesondere modellspezifische, können in einem solchen Szenario bereits eliminiert werden. Stattdessen sollten modellagnostische Methoden wie SHAP oder LIME in Betracht gezogen werden, da diese auf Ebene der Inputs und Outputs arbeiten. Auch auf Trainingsdaten (oder zumindest einen Teil davon) gewährt OpenAI keinen Zugriff. Einige XAI-Methoden wie SHAP sind allerdings auf einen Referenzdatensatz angewiesen, um korrekte Schlussfolgerungen über die Struktur und Zusammenhänge der dem Modell zugrunde liegenden Daten zu treffen. Der Zugriff auf das Modell und die Trainingsdaten ist ein Faktor, der besonders häufig übersehen wird und häufig zu Problemen führt.
9. Welche Recheninfrastruktur soll zur Berechnung der Erklärungen genutzt werden?
Während der Entwicklung liegen Machine-Learning-Modelle und XAI-Algorithmen oft auf lokalen Notebooks. Diese sind zwar leichter zu erstellen, aber nicht sicher, zuverlässig und flexibel genug für eine Inbetriebnahme der KI-Lösung. Wenn z. B. zusätzlich zu den Modellvorhersagen XAI-Komponenten wie Shapley Values berechnet werden sollen, muss vorherdefiniert sein, wann und wie diese zusätzliche Rechenleistung erbracht wird. Insbesondere große Deep-Learning Modelle laufen oft auf einem virtuellen Cloud-Rechner, der von Endnutzer:innen nur über eine API angezapft wird. Dadurch stellt sich die Frage, wo, wann und wie zusätzliche XAI-Algorithmen ausgeführt werden sollen.
Hinzu kommt ein zweites potenzielles Problem: Eine XAI-Methode funktioniert zwar prinzipiell, lässt sich allerdings auf den verfügbaren Rechenressourcen nicht zeiteffizient umsetzen. Dieses Risiko kann durch eine dedizierte Vorab-Planung der XAI-Komponenten minimiert werden. Je nach Recheninfrastruktur kommen aber auch andere Lösung infrage: Beispielsweise lässt sich die Berechnung von Shapley Values auf Cloud-Plattformen auf mehrere Rechner verteilen, um die Rechenzeit drastisch zu reduzieren. Grundsätzlich gilt: XAI ist kein “Anhängsel” eines Modells, sondern eine eigene Softwarekomponente mit individuellen Risiken und Potentialen.
10. In welcher Frequenz sollen neue Erklärungen berechnet werden?
XAI-Methoden unterscheiden sich stark hinsichtlich ihrer Recheneffizienz. Wer zum Beispiel globale Feature Importance berechnen will, wird mit der Permutation Feature Importance schneller sein als mit SHAP. Die Recheneffizienz der einmaligen Ausführung ist aber nur einer von zwei wichtigen Faktoren. In der Praxis werden Erklärungen mehrmals berechnet. Eine wöchentliche SHAP-Analyse verbraucht dann erheblich weniger Ressourcen als stündlich berechnete Permutation Feature Importance. Wichtig ist deshalb, die Neuberechnungsfrequenz in die Planung und Entwicklung der Recheninfrastruktur mit einzubeziehen. In einer idealen Welt ist die Neuberechnungsfrequenz statisch, z. B. einmal wöchentlich. Denkbar sind aber auch Szenarien, in denen Erklärungen auf Abruf berechnet werden und die Berechnungsfrequenz Trends, Saisonalitäten und Zufallseffekten unterliegt. Das Einbeziehen der Berechnungsfrequenz ist somit essenziell, um einen kontrollierten Betrieb des KI-Systems zu gewährleisten.
Fazit
Die Integration von Explainable AI (XAI) in den Entwicklungsprozess von KI-Modellen ist nicht mehr nur ein optionaler Zusatz, sondern eine notwendige Best Practice. Der Weg zu mehr Transparenz in der KI ist entscheidend, da bereits heute viele KI-Lösungen aufgrund mangelnder Erklärbarkeit ungenutzt bleiben. Um XAI effektiv zu implementieren, müssen Unternehmen und Entwickler:innen strategisch vorgehen und ihre Methoden sorgfältig auswählen.
In diesem Beitrag haben wir zehn praxisnahe Kriterien vorgestellt, die bei der Auswahl der richtigen XAI-Methoden helfen sollen. Von der Zielgruppenanalyse über die Geschäftsziele bis hin zu technischen Aspekten wie Datentypen und Recheninfrastruktur: Jedes Kriterium spielt eine wichtige Rolle, um Erklärbarkeit als Mittel zur Wertschöpfung, das von Anfang an in die Planung integriert werden muss, zu nutzen. So kann sichergestellt werden, dass KI-Lösungen nicht nur leistungsfähig, sondern auch verständlich und vertrauenswürdig sind. Unternehmen, die XAI als integralen Bestandteil ihrer KI-Strategie betrachten, werden in der Lage sein, ihre Modelle besser zu erklären, Vertrauen zu schaffen und letztlich erfolgreichere KI-Projekte umzusetzen.
Stell dir vor, du könntest alltägliche Routineaufgaben automatisieren und gleichzeitig Raum für kreative und innovative Tätigkeiten schaffen. Genau das ermöglicht der neue KI-Chatbot hagebauGPT den Mitarbeitenden von hagebau – einem europaweiten Netzwerk von Groß- und Einzelhändlern im Bereich Baustoffe, Holz, Fliesen und Do-it-yourself.
Mit hagebauGPT können Mitarbeitende sicher und effizient auf Unternehmensdatenbanken und interne Wissensquellen zugreifen. Diese Technologie fördert nicht nur den sicheren Umgang mit generativer KI, sondern verbessert auch die Arbeitsprozesse im Unternehmen. Langfristig soll dies zu mehr Effizienz führen und die Mitarbeitenden in ihrem täglichen Arbeitsablauf unterstützen. Kurz gesagt: hagebauGPT zeigt eindrucksvoll, wie maßgeschneiderte KI-Lösungen echte Vorteile und eine neue Dimension der Arbeitswelt schaffen können.
Die Herausforderung
Als die neuen generativen KI-Tools wie ChatGPT, Midjourney und Co. veröffentlicht wurden, erkannte hagebau schnell das Potenzial dieser Technologien zur Unterstützung ihrer internen Prozesse. Doch mit begrenzten IT-Ressourcen stand das Unternehmen vor der Herausforderung, diese innovativen Lösungen effektiv zu implementieren.
Mit statworx als strategischem Partner entschied sich hagebau für die Entwicklung eines eigenen, datensicheren Chatbots – hagebauGPT. Dieser Chatbot basiert auf der CustomGPT-Plattform von statworx, die speziell auf die Bedürfnisse des Unternehmens zugeschnitten wurde. Neben der sicheren Integration in die hagebau-Cloud bietet CustomGPT die Möglichkeit, branchenspezifische Funktionalitäten und eine individuelle Benutzeroberfläche zu integrieren, die mit den Markenrichtlinien des Unternehmens übereinstimmt.
Die Lösung
hagebauGPT nutzt Retrieval-Augmented Generation (RAG), um generative KI-Modelle mit spezifischem Wissen aus externen Datenquellen zu erweitern. Der Prozess besteht aus drei Schritten: Zuerst wird relevantes Wissen (Retrieval) aus den verfügbaren Daten gefunden. Dann wird eine Instruktion (Augment) erstellt, die das Sprachmodell nutzt, um eine präzise Antwort zu generieren (Generation). RAG ist besonders nützlich für die Beantwortung spezifischer Fragen, da es gezielt auf relevante Teile eines Datensatzes zugreift und so das Risiko von Fehlern reduziert. Die semantische Suche spielt dabei eine entscheidende Rolle, indem sie nicht nur nach Schlüsselwörtern, sondern auch nach Bedeutungen sucht. Dies ermöglicht es, relevante Informationen aus verschiedenen Datenquellen effizient zu finden.
Ein typischer Anwendungsfall von RAG ist der Einsatz in FAQ-Bots, die strukturierte FAQ-Datenbanken nutzen, um auf Benutzeranfragen zu antworten. Bei unstrukturierten Daten, wie technischen Handbüchern oder Marketingmaterialien, sind erweiterte Strategien notwendig, um diese in durchsuchbare Formate umzuwandeln. Hier RAG kann durch die Kombination von semantischer Vektorsuche und Fuzzy-Keyword-Suche weiter optimiert werden. Diese hybride Suchmethode sorgt dafür, dass sowohl genaue als auch kontextuell relevante Informationen effizient identifiziert werden.
Das Ergebnis
Der Chatbot bietet eine Vielzahl von Funktionen, darunter die Verarbeitung von Spracheingaben und die Interaktion mit internen Handbüchern. Nutzer:innen können zudem eigene Dokumente hochladen und bearbeiten. Dank RAG integriert hagebauGPT Unternehmensdaten und bietet zudem Kontrolle über Datensicherheit und Datenschutz, weil alle Daten innerhalb der EU bleiben. Diese Funktionalitäten fördern nicht nur die Effizienz, sondern auch die Kreativität der Mitarbeiter:innen, indem sie neue Wege der Interaktion und Problemlösung ermöglichen.
Nach einer erfolgreichen Pilotphase wurde hagebauGPT im Mai 2024 für alle Mitarbeiter:innen zugänglich gemacht. Die Resonanz war überwältigend positiv: Viele Mitarbeiter:innen nutzen den Chatbot aktiv und bringen neue Ideen für weitere Anwendungsfälle ein. Das zeigt: Der Weg von hagebau mit hagebauGPT ist ein Beispiel dafür, wie Unternehmen durch gezielte Investitionen in KI-Technologie langfristige Vorteile erzielen können. Das Unternehmen plant, die Funktionalitäten des Chatbots weiter auszubauen und dabei insbesondere die Effizienzoptimierung im Fokus zu behalten. Durch die Integration in bestehende Geschäftsanwendungen und die kontinuierliche Einbindung von Mitarbeiterfeedback wird die Plattform weiter verbessert und neue, innovative Einsatzmöglichkeiten erschlossen.
Fazit
Die Zusammenarbeit zwischen hagebau und statworx zeigt eindrucksvoll, wie KI-gestützte Technologien nicht nur die Effizienz steigern, sondern auch eine Plattform für kreative Lösungen bieten können. Unternehmen, die ähnliche Wege beschreiten möchten, können daraus konkrete Best Practices ableiten.
CustomGPT eröffnet Unternehmen die Chance, ihre spezifischen Geschäftsanforderungen zu erfüllen und gleichzeitig Datenschutz und Sicherheit zu gewährleisten. In unserer Case Study mit hagebau kannst du im Detail nachlesen, wie die Implementierung einer CustomGPT-Lösungen auch in deinem Unternehmen ablaufen könnte.
2024 war ein aufregendes Jahr für die Künstliche Intelligenz. Nun steuern wir auf den Endspurt zu – höchste Zeit für eine Bestandsaufnahme.
Anfang des Jahres veröffentlichten wir unseren AI Trends Report 2024, in dem wir 12 steile Thesen formulierten, wie sich die KI-Landschaft 2024 entwickeln wird. In diesem Blogbeitrag werfen wir einen Blick darauf, wie sich unsere Prognosen bewährt haben. Dazu stellt Fabian Müller, COO von statworx, einige unserer Vorhersagen auf den Prüfstand.
Die Evolution der Datenkultur: Ein Wettbewerbsvorteil?
Unsere erste Prognose betraf die Verankerung von KI-Kompetenz und Datenkultur in Unternehmen. Fabian sagt zurecht: „Das ist ein No-Brainer. Unternehmen, die eine starke Datenkultur etabliert haben, verzeichnen überproportionale Fortschritte in der Nutzung von KI. Datenkultur wirkt wie Booster für den Fortschritt von KI.“
Der EU AI Act wird insbesondere durch Artikel 4 in naher Zukunft dazu beitragen, dass Unternehmen strukturiertes Wissen in bestimmten Rollen aufbauen werden. Der Wettbewerbsvorteil für Unternehmen, die Expertise und Kultur vereinen, ist also real und messbar. Das erfuhren wir auch auf unserem statworx Client Day aus erster Hand von unseren Kunden. Wer mehr zum Thema Data Culture wissen möchte, sollte unser Whitepaper zum Thema Data Culture lesen.
Die 4-Tage-Arbeitswoche: Ein Traum oder bald Realität?
Ein heiß diskutiertes Thema ist und bleibt die 4-Tage-Arbeitswoche, ermöglicht durch KI-Automatisierung. Fabian stellt klar, dass diese Entwicklung (noch) nicht primär durch KI vorangetrieben wird, sondern vor allem eine gesellschaftliche Diskussion ist: „KI kann zwar Effizienzsteigerungen ermöglichen, aber viel weiter ist generative KI noch nicht. Aktuell können wir spezifische Aufgaben automatisieren, aber um Arbeitszeit in großem Stil zu reduzieren, müsste KI ein ganzes Spektrum an Aufgaben übernehmen.“ Das ist auch der Grund, warum die Diskussion aktuell vor allem von der jüngeren Generation, die vornehmlich in der digitalen Arbeitswelt zuhause ist, geführt wird. Es bleibt abzuwarten, wann KI-Automatisierung auch darüber hinaus Arbeitszeitverkürzungen tatsächlich ermöglichen kann – und wie wir als Gesellschaft darüber entscheiden. Denn solche Veränderungen erfordern vor allem entsprechende politische Mehrheiten.
Auf dem Weg zur AGI: Omnimodale Modelle im Fokus
Die Vision einer Artificial General Intelligence (zu Deutsch: allgemeinen Künstlichen Intelligenz, abgekürzt AGI) scheint durch die Entwicklung von omnimodalen Modellen wie GPT-4o näher zu rücken. Die beeindruckenden Fortschritte von Claude 3.5 und dem Open-Source-Modell (bzw. Open-Weight) Llama 3.1 zeigen, dass die Entwicklung in Richtung AGI voranschreitet. Doch wie groß die nächsten Schritte werden, hängt für Fabian maßgeblich vom Zusammenspiel zweier miteinander zusammenhängender Faktoren ab: der Modellarchitektur und der Fähigkeit, KI-Systemen einen Körper bzw. eine physische Repräsentanz zu geben, das sogenannte Embodiment.
Was die Modellarchitektur betrifft, liegt der Schlüssel für Fabian in der Kombination von Symbolic AI und Connectionism (Deep Learning). Symbolic AI basiert auf expliziten logischen Regeln und Symbolen, die menschliche Wissensdarstellungen nachahmen. Denn auch wir Menschen kommen nicht ohne Vorwissen auf die Welt – wie Kahnemans Systeme 1 und 2 verdeutlichen. Symbolic AI war in den frühen Tagen der KI-Forschung populär. Immer wichtiger wird aber Deep Learning. Es setzt auf neuronale Netzwerke, die große Mengen an Daten verarbeiten und selbstständig Muster erkennen können. Es basiert auf der Annahme, dass Intelligenz durch die Kombination von Daten und Rechenleitung vollumfänglich erreicht werden kann.
Wenn es gelingt, diese beiden Architekturen sinnvoll zu verbinden, und ein solches KI-Modell in physische oder virtuelle Umgebungen einzubetten (Embodiment), können wir AGI tatsächlich bedeutend näherkommen, denkt Fabian. Denn das Gelingen von AGI beruht maßgeblich auf der These aus der neueren Kognitionswissenschaft, dass Bewusstsein einen Körper benötigt, also eine physische Interaktion voraussetzt.
Omnimodalität bezieht sich auf die Fähigkeit von KI-Modellen, mehrere Modalitäten – wie Text, Bild, Video und Audio – gleichzeitig zu verarbeiten und zu verstehen. Ein Beispiel dafür ist GPT-4o Vision, das sowohl Text als auch Bilddaten verarbeiten kann.
Embodiment hingegen bedeutet, dass KI-Modelle in einer physischen oder virtuellen Umgebung agieren und mit dieser interagieren können. Ein gutes Beispiel wäre ein Roboter, der nicht nur Sprache versteht, sondern auch physische Aufgaben ausführt.
Generative AI: Revolution in der Medienproduktion
Generative AI ist bereits dabei, die Medienproduktion zu revolutionieren. Ein beeindruckendes Beispiel lieferte Toys’R’Us, das mit OpenAIs Sora einen kompletten Werbespot produzierte. Links und rechts davon sprießen immer mehr generative KI-Tools aus dem Boden, wie zum Beispiel Lunar AI für Contenterstellung und DreamStudio für Bildgenerierung. Für den Film Civil War erstellte ein Marketingteam erstmals alle Filmplakate mit generativer KI – ein Vorbote für die ganze Filmbranche?
Was wir aktuell wissen, gibt noch keinen Anlass zur Annahme, dass wir demnächst den ersten komplett KI-generiert Film erwarten dürfen. Sora ist bisher nur eingeschränkt verfügbar und es ist unklar, wie weit fortgeschritten das Tool in seiner Entwicklung wirklich ist und wie viel manuelle Arbeit noch erforderlich ist. Doch für Fabian zeigt der Trend klar in eine Richtung: Obwohl KI derzeit noch wechselhafte Vorschläge macht, die vom Menschen nachbearbeitet werden müssen, wird sie in Zukunft zunehmend in der Lage sein, Inhalte automatisiert und mit höherer Qualität zu erstellen.
NVIDIA vs. Herausforderer: Ein ungleicher Kampf?
„Der Markt für GPUs bleibt spannend, doch NVIDIAs Dominanz ist weiterhin ungebrochen, das zeigt auch der Aktienkurs“, sagt Fabian. „Trotz Fortschritten von etablierten Unternehmen wie AMD und Start-ups wie Cerebras und Groq bleiben NVIDIAs Hardware und das damit verbundene Softwarestack und Ökosystem überlegen.“
Hinzu kommt, dass das Geschäftsmodell Chipentwicklung hohe Kapitalinvestitionen erfordert, was eine große Einstiegshürde für neue Akteure darstellt. Für die etablierten Konkurrenten sieht es nicht viel besser aus: Sie kämpfen damit, dass nahezu alle KI-Modelle auf NVIDIA-Hardware und NIVIDAs CUDA-Plattform entwickelt werden. Diese Modelle auf eine andere Hardware zu übertragen, ist technisch herausfordernd und zeitaufwändig.
CUDA (Compute Unified Device Architecture) ist eine Plattform für parallele Berechnungen und ein Programmiermodell bzw. Software-Framework, das von NVIDIA für allgemeine Berechnungen auf Grafikprozessoren (GPUs) entwickelt wurde.
SML vs. LLM – oder ganz weg von Transformern?
Leistungsfähige und kosteneffiziente kleine Sprachmodelle (Small Language Models, SLMs) wie Phi-3-mini (3.8B Tokens) laufen ihren großen Geschwistern in einigen Disziplinen schon den Rang ab. Das zeigt: Kleinere Modelle mit hochwertigen Daten können sehr erfolgreich sein. Trotzdem werden parallel dazu Modelle mit immer größeren Datenmengen gefüttert, wie z. B. Llama 3.1, das mit 405 Milliarden Parametern und 16,5 Billionen Tokens trainiert wurde.
Als Open-Source-Modell übertrifft Llama 3.1 in einigen Anwendungen sogar GPT-4, was wiederum zeigt: Der Abstand zwischen Open-Source- und proprietären Modellen ist derzeit so klein wie nie zuvor. Für Fabian liegt die Zukunft der Sprachmodelle deshalb in einer Kombination aus Qualität und Quantität. Denn, obwohl die Datenmenge sehr wichtig ist, liegt ein immer größeres Augenmerk auf der Datenbereinigung und -aufbereitung.
Denkbar ist aber auch, dass die Transformer-Technologie Modellarchitekturen ergänzt. Hier gibt es neue Lösungsansätze wie z. B. xLSTM, Scalable MatMul-free Language Modeling und Mamba. Diese Ansätze befinden sich jedoch noch in frühen Forschungsstadien. In welche Richtung es weitergeht, wird auch maßgeblich von der Frage abhängen: Wie gut wird GPT-5?
AI Act: Mehr Herausforderung als Chance
Aktuell ist es unklar, ob sich die Vorteile durch den AI Act wirklich einstellen. Aus ethischer Sicht sind die Vorteile für Verbraucher zu begrüßen. Der Schutz von Grundrechten sollte stets an oberster Stelle stehen. Aber ob sich die potenziellen Vorteile des AI Act auch für Unternehmen einstellen, muss die Zukunft zeigen. Denn derzeit sorgt das Gesetz eher für Unsicherheit: „Alle wissen, dass sie handeln müssen, aber kaum einer weiß genau wie“, sagt Fabian. „Das sehen wir auch bei unseren Kunden, mit denen wir aktuell daran arbeiten, Governance-Strukturen aufzubauen.”
In puncto Investitionen und Start-ups ist die Lage etwas klarer, weil sich der AI Act hier eher als hinderlich erweist. Europäische Start-ups haben Schwierigkeiten mit dem komplexen Gesetz, das je nach Risikostufe (von Spamfiltern über Chatbots bis Stellenvermittlung) unterschiedliche Anforderungen stellt und einige Anwendungsfälle verbietet. Die umfangreichen Definitionen könnten dazu führen, dass mehr als die geschätzten 5-15 % der Systeme als hochriskant eingestuft werden, was kleine Unternehmen vor erhebliche Kosten stellt.
Ironischerweise warnt nun sogar der Architekt des Vorschlags der Europäischen Kommission, Gabriele Mazzini, dass das Gesetz zu weit gefasst sein könnte und Unternehmen in Europa möglicherweise nicht genug Rechtssicherheit bietet. Aus unserer Sicht muss die EU deshalb die Investitionslücke zu den globalen Konkurrenten schließen und sicherstellen, dass die Regulierung Innovationen nicht behindert. Nur dann kann der AI Act das Vertrauen in europäische KI-Technologien stärken und als Qualitätsmerkmal fungieren.
KI-Agenten revolutionieren den Alltag…noch nicht
Was vor einem Jahr als Technologie noch unter dem Radar flog, feiert nun ein Comeback in neuer Qualität und Sichtbarkeit. Getrieben von den Fortschritten immer leistungsstärkerer LLMs entwickelt sich auch die Technologie für fortschrittliche persönliche Assistenz-Bots rasch weiter. Noch sind die Agents allerdings nicht so weit, dass sie zu einem wesentlichen Bestandteil des Arbeitsalltags geworden sind, konstatiert Fabian. Doch der Trend geht in die Richtung: Wir bei statworx nutzen KI-Assistenten intern und setzen auch für Kunden die ersten Projekte in dem Bereich um. Diese Systeme werden in den kommenden Jahren eine sehr große Rolle spielen.
Wenig überraschend erkennen auch immer mehr Start-ups die Chancen, die sich hier eröffnen, und dringen in den Markt ein. Und auch Sprachmodelle werden bereits explizit für den Umgang mit Tools trainiert, allen voran Llama 3.1. Sein Nachfolger Llama 4 soll noch stärker dafür optimiert sein. Doch der genaue Zeitrahmen und das Ausmaß der Entwicklung hin zu wirklich leistungsfähigen Agenten und Systemen von Agenten hängen von weiteren technologischen Fortschritten, regulatorischen Rahmenbedingungen und der gesellschaftlichen Akzeptanz ab.
Können wir ein Zwischenfazit ziehen? Jein…
Unser AI Trends Report zeigt, dass wir ein gutes Gespür für die bedeutenden Themen und Fragen hatten, die uns alle dieses Jahr beschäftigen würden. Wie gut unsere Prognosen waren, müssen wir an dieser Stelle offenlassen. Fabians häufigste Antwort auf die Frage „Stimmt diese These?” lautete nämlich „Jein“ – gefolgt von einer vorsichtigen Abwägung. Klar ist nur: Die Dynamik der Branche ist hoch.
An den Börsen drängt sich immer stärker die Frage auf, ob der Hype schon vorbei und KI zu einer Blase angeschwollen ist. Expert:innen sind sich uneins, denn trotz der jüngsten Turbulenzen gilt KI als neue Basistechnologie, ähnlich wie das Internet Anfang der 2000er Jahre. Damals profitierten kluge Unternehmer, die gegen den Trend an der Börse an die Technologie glaubten. Diese Unternehmen – Amazon, Google, Facebook und Nvidia – gehören heute zu den wertvollsten der Welt. Wenn KI-Aktienkurse also fallen und nicht überall kurzfristige Erfolge eintreten, zeigt der Blick in die Vergangenheit, dass es für den Standort Europa gefährlich sein kann, voreilig das Ende des KI-Hypes auszurufen.
Wir bleiben deshalb weiter gespannt, welche Überraschungen die nächsten Monate noch für uns bereithalten und laden euch ein, mit uns zu diskutieren!
Anfang August trat der AI Act der Europäischen Union in Kraft. Die Verordnung zielt darauf ab, einen einheitlichen Rechtsrahmen zu schaffen, der die Entwicklung und den Einsatz von KI-Technologien in der EU regelt. Das weltweit erste umfassende KI-Gesetz soll sicherstellen, dass KI-Systeme in der EU sicher eingesetzt, und Risiken minimiert werden. Damit kommen weitreichende Verpflichtungen für Unternehmen, die hochrisiko KI-Systeme entwickeln und betreiben. Wir haben das Wichtigste zum AI Act zusammengetragen.
Gesetzgebung mit globalem Impact
Eine Besonderheit des Gesetzes ist das so genannte Marktortprinzip: Demzufolge sind unabhängig von ihrem eigenen Standort alle Unternehmen von dem AI-Act betroffen, die künstliche Intelligenz auf dem europäischen Markt anbieten, betreiben oder deren KI-generierter Output innerhalb der EU genutzt wird.
Als künstliche Intelligenz gelten dabei maschinenbasierte Systeme, die autonom Prognosen, Empfehlungen oder Entscheidungen treffen und damit die physische und virtuelle Umwelt beeinflussen können. Das betrifft beispielsweise KI-Lösungen, die den Recruiting-Prozess unterstützen, Predictive-Maintenance-Lösungen und Chatbots wie ChatGPT. Dabei unterscheiden sich die rechtlichen Auflagen, die unterschiedliche KI-Systeme erfüllen müssen, stark – abhängig von ihrer Einstufung in Risikoklassen.
Von der Regulierung ausgeschlossen sind KI-Systeme, die für die Forschung oder das Militär entwickelt werden, als Open-Source-Systeme zur Verfügung stehen oder von Behörden in der Strafverfolgung oder Justiz verwendet werden. Zusätzlich ist die Nutzung von KI-Systemen zu rein privaten Zwecken vom Gesetz ausgenommen.
Die Risikoklasse bestimmt die rechtlichen Auflagen
Im Kern des Gesetzes steht die Einteilung von KI-Systemen in vier Risikoklassen. Je höher die Risikoklasse, desto größer sind die rechtlichen Auflagen, die erfüllt werden müssen.
Die Risikoklassen umfassen:
- niedriges,
- begrenztes,
- hohes
- und inakzeptables Risiko.
Diese Klassen spiegeln wider, inwiefern eine künstliche Intelligenz europäische Werte und Grundrechte gefährdet. KI-Systeme, die der Kategorie „inakzeptables Risiko“ angehören, werden vom AI-Act verboten. Besonders umfassende Auflagen gelten für Hochrisiko-Systeme, die in Auflagen für „Provider“ (Anbieter) und „Deployer“ (Benutzer), „Distributor“ (Händler) und „Importer“ (Einführer) unterteilt werden. Welche KI-Systeme in welche Risikoklasse fallen und welche Auflagen damit verbunden sind, erläutern wir im Folgenden.
Verbot für Social Scoring und biometrische Fernidentifikation
Einige KI-Systeme bergen ein erhebliches Potenzial zur Verletzung der Menschenrechte und Grundprinzipien, weshalb sie der Kategorie „inakzeptables Risiko” zugeordnet werden. Zu diesen gehören:
- Echtzeit-basierte biometrische Fernidentifikationssysteme in öffentlich zugänglichen Räumen (Ausnahme: Strafverfolgungsbehörden dürfen diese zur Verfolgung schwerer Straftaten nutzen);
- Biometrische Fernidentifikationssysteme im Nachhinein (Ausnahme: Strafverfolgungsbehörden dürfen diese zur Verfolgung schwerer Straftaten nutzen);
- Biometrische Kategorisierungssysteme, die sensible Merkmale wie Geschlecht, ethnische Zugehörigkeit oder Religion verwenden;
- Vorausschauende Polizeiarbeit auf Basis von sogenanntem „Profiling“ – also einer Profilerstellung unter Einbezug von Hautfarbe, vermuteten Religionszugehörigkeit und ähnlich sensiblen Merkmalen –, dem geografischen Standort oder vorhergehenden kriminellen Verhalten;
- Systeme zur Emotionserkennung am Arbeitsplatz und in Bildungseinrichtungen, ausgenommen aus medizinischen und sicherheitstechnischen Gründen;
- Beliebige Extraktion von biometrischen Daten aus sozialen Medien oder Videoüberwachungsaufnahmen zur Erstellung von Datenbanken zur Gesichtserkennung;
- Social Scoring, das zu Benachteiligung in sozialen Kontexten führt;
- KI, die die Schwachstellen einer bestimmten Personengruppe aufgrund ihres Alters, einer Behinderung oder einer besonderen sozialen oder wirtschaftlichen Situation ausnutzt oder unbewusste Techniken einsetzt, die zu Verhaltensweisen führen können, die physischen oder psychischen Schaden verursachen.
- KI-Systeme, die manipulative, täuschende und unterschwellige Techniken einsetzen um Entscheidungen böswillig zu beeinflussen.
Diese KI-Systeme werden im Rahmen des AI-Acts auf dem europäischen Markt mit einer Frist bis Februar 2025 verboten.
Zahlreiche Auflagen für KI mit Risiko für Gesundheit, Sicherheit oder Grundrechte
In die Kategorie „hohes Risiko“ fallen alle KI-Systeme, die nicht explizit verboten sind, aber dennoch ein hohes Risiko für Gesundheit, Sicherheit oder Grundrechte darstellen. Folgende Anwendungs- und Einsatzgebiete werden dabei explizit genannt:
- Biometrische und biometrisch-gestützte Systeme, die nicht in die Risikoklasse „inakzeptables Risiko“ fallen;
- Management und Betrieb kritischer Infrastruktur;
- allgemeine und berufliche Bildung;
- Zugang und Anspruch auf grundlegende private und öffentliche Dienste und Leistungen;
- Beschäftigung, Personalmanagement und Zugang zur Selbstständigkeit;
- Strafverfolgung;
- Migration, Asyl und Grenzkontrolle;
- Rechtspflege und demokratische Prozesse
Für diese Systeme gilt jedoch eine Außnahme, wenn entweder das System das Ergebnis einer zuvor abgeschlossenen menschlichen Tätigkeit verbessern bzw. korrigieren soll, oder wenn es dazu bestimmt ist, eine sehr eng gefasste Verfahrensaufgabe auszuführen. Diese Begründung muss dokumentiert werden und auf Anfrage den Behörden zur Verfügung gestellt werden.
Ebenfalls als Hochrisiko-System gelten KI-Systeme, die unter die im AI Act in Anhang I genannten Produktsicherheitsregelungen der EU fallen. Dies umfasst beispielsweise KI-Systeme, die in der Luftfahrt, in Spielzeug, Medizingeräten oder in Aufzügen als Sicherheitskomponenten verwendet werden.
Für Provider von Hochrisiko-KI-Systeme sind umfassende rechtliche Auflagen vorgesehen, die vor der Inbetriebnahme umgesetzt und während des gesamten KI-Lebenszyklus beachtet werden müssen:
- Abschätzung der Risiken und Effekte auf Grund- und Menschenrechte
- Qualitäts- und Risikomanagement
- Data-Governance-Strukturen
- Qualitätsanforderungen an Trainings-, Test- und Validierungsdaten
- Technische Dokumentationen und Aufzeichnungspflicht
- Erfüllung der Transparenz- und Bereitstellungspflichten
- Menschliche Aufsicht, Robustheit, Cybersecurity und Genauigkeit
- Konformitäts-Deklaration inkl. CE-Kennzeichnungspflicht
- Registrierung in einer EU-weiten Datenbank
- Nutzungsanweisungen für nachgelagerte Deployer
Im Gegensatz zu Providern (bzw. Anbietern), die KI-Systeme entwickeln und auf den Markt bringen, sind Deployer i.d.R. Betreiber, die fremde Systemen kommerziell nutzen. Deployer unterliegen weniger strengen Regulierungen als Provider: Sie müssen das Hochrisiko-KI-System gemäß den bereitgestellten Nutzungshinweisen verwenden, Input Daten sorgfältig überwachen, den Betrieb des Systems überwachen und Protokolle führen.
Importeure und Händler von Hochrisiko-KI-Systemen müssen prüfen, ob der Provider alle vom AI-Act-Gesetz geforderten Maßnahmen erfüllt, und das System andernfalls zurückrufen.
Wichtig ist außerdem zu beachten, dass jeder Deployer, Händler oder Importeur nach dem AI Act als Provider gilt, sobald er das System unter seinem eigenen Namen oder seiner eigenen Marke auf den Markt oder in Betrieb bringt. Ebenso gilt dies, wenn wesentliche Änderungen am System vorgenommen werden.
KI mit limitiertem Risiko muss Transparenzpflichten erfüllen
KI-Systeme, die direkt mit Menschen interagieren, fallen in die Risikoklasse „limitiertes Risiko“. Dazu zählen Emotionserkennungssysteme, biometrische Kategorisierungssysteme sowie KI-generierte oder veränderte Audio-, Bild-, Video- oder Textinhalte. Für diese Systeme, zu denen beispielsweise auch Chatbots zählen, sieht der AI Act die Verpflichtung vor, Verbraucher:innen über den Einsatz künstlicher Intelligenz zu informieren und KI-generierten Output als solchen zu deklarieren.
Keine rechtlichen Auflagen für KI mit geringem Risiko – doch KI-Bildung wird Pflicht für alle
Viele KI-Systeme, wie beispielsweise Predictive-Maintenance oder Spamfilter, fallen in die Risikoklasse „geringes Risiko“. Diese Systeme unterliegen keiner besonderen Regulierung nach dem AI Act.
Für alle Provider und Deployer von KI-Systemen, unabhhängig von deren Risikoklasse, widmet die EU der Förderung von KI-Kompetenzen sogar einen eigenen Artikel: In Artikel 4 werden regelmäßige KI-Schulungen und -Weiterbildungen für Personen gefordert, die mit KI-Systemen in Berührung kommen.
GPAI-Modelle werden gesondert geregelt
Die Regulation zu KI-Modellen mit allgemeinem Verwendungszweck („General Purpose AI models“), die ein breites Spektrum an unterschiedlichen Aufgaben erfüllen können, wurde als Reaktion auf das Aufkommen von KI-Modellen wie etwa GPT-4 in den AI Act aufgenommen. Sie betrifft die Entwickler dieser Modelle, wie etwa OpenAI, Google oder Meta. Abhängig davon ob ein Modell als „Systemic Risk“ eingeschätzt wird und ob es Open Source und frei zugänglich ist, fallen für die Entwickler unterschiedlich strenge Pflichten an. Große Modelle, die mit über 10^25 FLOP Rechenleistung trainiert wurden, müssen, da sie als „Systemic Risk“ eingestuft werden, zahlreiche und strenge Auflagen erfüllen, wie beispielsweise technische Dokumentationen und Risikoevaluierungen. Diese Regeln betreffen auch die neueste Generation von KI-Modellen rund um GPT-4o, Llama 3.1 oder Claude 3.5.
Unternehmen sollten sich jetzt auf den AI Act vorbereiten
Unternehmen haben nun bis zu drei Jahre Zeit, den Regulierungen der EU nachzukommen. Dabei tritt das Verbot für Systeme mit inakzeptablem Risiko und die Pflicht zu KI-Bildung schon in sechs Monaten in Kraft. Um Prozesse und KI-Systeme in Ihrem Unternehmen gesetzeskonform zu gestalten, ist der erste Schritt dafür die Einschätzung der Risikoklasse jedes einzelnen Systems. Falls Sie noch nicht sicher sind, in welche Risikoklassen Ihre KI-Systeme fallen, empfehlen wir unseren kostenfreien AI Act Quick Check. Er unterstützt Sie dabei, die Risikoklasse einzuschätzen. Bei weiteren Fragen zum AI Act können Sie gerne jederzeit auf uns zukommen.
Mehr Informationen:
- Lunch & Learn „Done Deal“
- Lunch & Learn „Alles, was du über den AI Act Wissen musst “
Quellen:
- Presse-Statement des europäischen Rats: „Artificial intelligence act: Council and Parliament strike a deal on the first rules for AI in the world“
- „Allgemeine Ausrichtung“ des Rats der Europäischen Union: https://www.consilium.europa.eu/en/press/press-releases/2022/12/06/artificial-intelligence-act-council-calls-for-promoting-safe-ai-that-respects-fundamental-rights/
- Gesetzesvorschlag („AI-Act“) der Europäischen Kommission: https://eur-lex.europa.eu/legal-content/DE/TXT/?uri=CELEX%3A52021PC0206
- Ethik-Leitlinien für eine vertrauenswürdige KI: https://digital-strategy.ec.europa.eu/en/library/ethics-guidelines-trustworthy-ai
- Finale Bestimmungen des AI Acts: https://artificialintelligenceact.eu/
- Finale Bestimmungen des AI Acts: Verordnung (EU) 2024/1689 des Europäischen Parlaments
Read next …
… and explore new
Epoche 4 – Ausblick: What’s Next?
Willkommen zum finalen Teil unserer Blogserie zur Geschichte der generativen Künstlichen Intelligenz! Bisher haben wir die Entwicklung von den ersten statistischen Modellen über neuronale Netze bis hin zu den modernen Anwendungen betrachtet. Doch was hält die Zukunft für uns bereit? In diesem letzten Teil werfen wir einen Blick auf die kommenden Herausforderungen und Möglichkeiten der generativen KI.
Interpolieren vs. Extrapolieren
Ein zentraler Punkt in der Weiterentwicklung von GenAI ist der Übergang von der Interpolation zur Extrapolation. Während heutige Modelle wie GPT-4o und DALL-E 3 beeindruckende Leistungen innerhalb des gelernten Datenraums (Interpolation) erbringen, steht die Fähigkeit zur Extrapolation – also das Erstellen von Inhalten außerhalb des gelernten Bereichs – noch am Anfang. Die nächste Generation von Modellen könnte darauf abzielen, diese Grenze zu überwinden und noch kreativere und vielseitigere Inhalte zu generieren. Ob und wie das geschieht, wird aktuell heiß diskutiert. Aktuell existieren noch keine klaren Konzepte, wie diese neue Generation von extrapolierenden Modellen aussehen kann.
Agenten
Ein weiterer spannender Bereich sind KI-Agenten. Diese intelligenten Systeme können autonom agieren, Entscheidungen treffen und Aufgaben ausführen, ohne dass menschliches Eingreifen erforderlich ist. Diese Fähigkeit unterscheidet sie von ChatGPT und anderen Chatbots, die “nur” auf Abfrage nützliche Antworten geben können. Solche Agenten könnten in der Zukunft komplexe Aufgaben in verschiedenen Bereichen wie Medizin, Finanzen oder Kundenservice übernehmen und dabei weit über die heutigen Fähigkeiten hinausgehen.
Ethische und rechtliche Fragen
Die zunehmende Verbreitung von GenAI bringt auch ethische und rechtliche Herausforderungen mit sich. Der Umgang mit Bias, also voreingenommenen oder diskriminierenden Ergebnissen, bleibt ein kritisches Thema. Darüber hinaus müssen ethische Standards und rechtliche Rahmenbedingungen für den Einsatz von Third-Party-GenAI und eigenen Modellen entwickelt werden, um Missbrauch und negative Auswirkungen zu minimieren. Besonders im Fokus stehen derzeit Intellectual Property Rights (Urheberrechte). Die Urteile in den Rechtsstreits zwischen Stability AI und Getty Images, OpenAI und der New York Times sowie im Fall Universal, Sony und Warner gegen Suno und Udo werden mit Spannung erwartet.
Vom Modell zum System
Eine wichtige Entwicklung ist der Übergang vom einzelnen Modell zum integrierten System. Was heißt das in der Praxis? Generative KI wird in komplexe Systeme eingebettet, die Sicherheitslücken schließen und die Zuverlässigkeit der Anwendungen erhöhen. Ein Beispiel dafür ist, dass ChatGPT nicht direkt Terminal-Befehle ausführt, sondern eine maßgeschneiderte API mit vordefiniertem Verhalten bedient. Diese Integration erlaubt es, die Vorteile der GenAI zu nutzen und gleichzeitig potenzielle Risiken zu minimieren.
Ausblick und Fazit
Die Zukunft der generativen Künstlichen Intelligenz ist sowohl vielversprechend als auch herausfordernd. Die Fähigkeit zur Extrapolation, die Entwicklung autonomer Agenten und die Integration von Modellen in sichere Systeme sind nur einige der spannenden Entwicklungen, die uns erwarten. Gleichzeitig müssen wir uns kontinuierlich mit den ethischen und rechtlichen Fragen auseinandersetzen, um eine verantwortungsvolle Nutzung dieser mächtigen Technologien zu gewährleisten.
Insgesamt zeigt die Geschichte der generativen KI, wie weit wir gekommen sind – von den ersten statistischen Modellen bis hin zu hochentwickelten, multimodalen Systemen. Doch der Weg ist noch lange nicht zu Ende. Die nächsten Jahre versprechen weitere große Sprünge. Es liegt an uns allen, die technologischen Weiterentwicklungen auch in gesellschaftlichen Fortschritt umzumünzen.
Das war der vierte und letzte Teil unserer Serie zur Geschichte und Zukunft der generativen Künstlichen Intelligenz. Wir hoffen, du hattest genauso viel Freude beim Lesen wie wir beim Schreiben. Wenn du mehr zum Thema KI erfahren möchtest, findest du viele weitere Blogbeiträge, Whitepaper und Interviews auf unserer Website.
Willkommen zurück zu unserer Blogserie zur Geschichte der generativen Künstlichen Intelligenz! Im letzten Teil haben wir den Übergang von traditionellen statistischen Modellen zu neuronalen Netzen und den ersten großen Durchbrüchen in der KI betrachtet. In diesem Teil fokussieren wir uns auf die aktuellen Entwicklungen und die praktischen Anwendungen, die generative KI in die Hände der breiten Bevölkerung gebracht haben.
Epoche 3 – Übergang
Zeitraum: November 2022 – Heute
Zeitraum | Paradigmen | Techniken | Nutzerprofil | Beispiele |
Nov 22 – heute | Plug & Play, text-to-anything, Multimodalität, Open-Source Hype | RLHF, APIs, PEFT, RAG | Breite Bevölkerung nutzt Chat Interfaces, IT-Experten nutzen APIs und Open-Source-Modelle | Text: ChatGPT, Bard, Mistral; Image: Stable Diffusion, DALL-E, Midjourney; Video: Runway ML, Pika Labs; Audio: Voicebox, MusicGen, Suno |
Der Durchbruch der Sprachmodelle
Obwohl Sprachmodelle wie GPT-3 bereits überzeugende Texte schreiben und, mit dem richtigen Prompt, sogar Wissen abrufen konnten, waren sie anfänglich nur wenig benutzerfreundlich. Neben der technischen Hürde, dass eine Schnittstelle zu einem Sprachmodell (API) nur mit Programmierkenntnissen abrufbar war, konnten diese Modelle noch keine natürlichen Konversationen führen.
Ein bedeutender Fortschritt kam im Januar 2022, als OpenAI GPT-3 durch Finetuning darauf trainierte, Anweisungen zu folgen, statt lediglich Sätze zu vervollständigen. Das Resultat, InstructGPT, kann als klarer Vorbote für den Durchbruch von ChatGPT im Dezember 2022 gesehen werden.
Nicht nur konnte ChatGPT natürliche Konversationen mit bis zu 3000 Wörtern führen – es entpuppte sich als vielversprechender Assistent für eine Reihe alltäglicher Aufgaben. Verpackt in eine zugängliche Web-Applikation markierte die Veröffentlichung von ChatGPT eine Zäsur in der KI- und Technologiegeschichte. Statt Automatisierung den IT-Expert:innen zu überlassen, konnten Bürotätigkeiten wie das Schreiben von E-Mails oder das Zusammenfassen von Texten nun individualisiert und selbstbestimmt von Durchschnittsuser:innen nach Bedarf teilautomatisiert werden. Nicht umsonst schrieb Andrej Karpathy, Gründungsmitglied von OpenAI und ehemaliger AI-Direktor von Tesla, bei Twitter:
Multimodale Generative KI
Doch wer bei moderner generativer KI nur an Texte denkt, lässt die beeindruckende Entwicklung multimodaler GenAI-Modelle unerwähnt. Seit April 2022 lassen sich mit DALL-E 2 anhand kurzer Textprompts realistische Zeichnungen, Kunstwerke und Fotografien generieren. Kommerzielle GenAI-Plattformen wie RunwayML bieten seit Februar 2023 sogar die Möglichkeit, Bilder mit KI zum Leben zu erwecken oder gar komplette Videos allein auf Basis von Textprompts zu generieren. Wenig überraschend also, dass auch das Erstellen von Musik oder Soundeffekten mit KI blitzschnell und für jeden zugänglich wird. Frühe Modelle wie Googles MusicLM (Januar 2023) oder Metas AudioGen (August 2023) lieferten noch keine Sounds in Studioqualität, zeigten aber bereits das Potential der Technologie auf. Der große Durchbruch von GenAI für Audio kam im Frühjahr 2024, als Suno, Udio und Elevenlabs hochqualitative Songs und Sounds generierten und eine große Debatte um Urheberrecht und Fair Use entfachten.
Wer profitiert?
Bei all diesen mächtigen KI-Modellen stellt sich die Frage, wer von diesen neuen Technologien profitiert. Sind es wieder nur große Tech-Konzerne, die insbesondere in Sachen Datenschutz keinen guten Ruf genießen? Die Antwort ist: teils, teils. Zwar werden große Durchbrüche häufig noch von Microsoft, Google und Co. angeführt, aber kleinere, frei verfügbare Modelle, sogenannte Open-Source-Modelle, erzielen zunehmend große Erfolge. Das Sprachmodell des französischen Startups Mistral AI konnte so zuletzt OpenAIs GPT-3.5 in den üblichen Testmetriken schlagen – und das mit einem wesentlich ressourcenschonenderen und schnelleren Modell als der Konkurrent aus dem Silicon Valley. Mit Meta gehört auch einer der größten Tech-Konzerne der Welt zu den führenden Open-Source-Entwicklern, unter anderem mit ihren Llama-Modellen. Wer sich allgemein verfügbare, private KI-Assistenten wünscht, kann sich auf eine rosige Zukunft freuen.
Herausforderungen und Chancen
Die dritte Phase der Geschichte von GenAI ist gekennzeichnet durch die breite Verfügbarkeit hochperformanter KI-Modelle, entweder durch kommerzielle Web-Applikationen und Plattformen oder durch frei verfügbare Open-Source-Modelle. Unternehmen wird zunehmend klar, dass die Wertschöpfung durch KI nicht nur an die Verfügbarkeit hochqualifizierter IT-Expert:innen geknüpft ist. Vielmehr gilt es, den durch KI geschaffenen Nutzen über die breite Anwendung vorhandener Technologien zu maximieren. Dabei stellen sich weiterhin zahlreiche Herausforderungen, die unter anderem die Sicherheit der Eingabe- und Ausgabedaten oder die Fairness der KI-Entscheidungen betreffen.
Wie kommen wir auf das nächste Level?
Ein Schlüssel zum Erfolg dieser Epoche ist das Paradigma des „Plug & Play“. Das heißt, Modelle wie ChatGPT und DALL-E 2 können einfach und ohne tiefgehende technische Kenntnisse genutzt werden. Diese Modelle sind durch „Reinforcement Learning from Human Feedback” (RLHF) und API-Schnittstellen leicht zugänglich. Die Aussage von Andrej Karpathy, dass „die heißeste neue Programmiersprache Englisch ist“, unterstreicht die Demokratisierung der KI-Nutzung.
Ein weiterer wichtiger Aspekt ist die Finetuning von Modellen auf menschliche Präferenzen, was die Benutzerfreundlichkeit und Anwendbarkeit erheblich verbessert hat. Gleichzeitig erleben Open-Source-Modelle einen Boom, da sie auf normalen Computern laufen und somit einer breiteren Nutzerschaft zugänglich sind.
Ethische und rechtliche Fragen stehen ebenfalls im Fokus, insbesondere im Umgang mit Third-Party-GenAI und eigenen Modellen. Themen wie Bias und Fairness sind nicht zu unterschätzen, da sie die Akzeptanz und Integrität der KI-Anwendungen maßgeblich beeinflussen.
What’s next?
Im nächsten Teil unserer Serie wagen wir einen Blick in die Zukunft von generativer KI. Verpassenicht, wie wir die zukünftigen Herausforderungen und Chancen in der Welt der generativen Künstlichen Intelligenz beleuchten.
Verpasse nicht Teil 4 unserer Blogserie.
Willkommen zurück zu unserer Serie zur Geschichte der Generativen Künstlichen Intelligenz. Im ersten Teil haben wir die Grundlagen erkundet und gesehen, wie frühe statistische Modelle wie der Naïve Bayesian Classifier den Weg für die heutige KI geebnet haben. Nun machen wir einen großen Sprung nach vorne und tauchen in die zweite Epoche ein – eine Zeit des Übergangs, in der neuronale Netze und GPUs die Bühne betreten und die Welt der KI revolutionieren.
Epoche 2 – Übergang
Ab 2015 – Staunen in der Vorstufe
Der KI-Winter ist vorbei, und neuronale Netze sowie GPUs (Grafikprozessoren) haben Einzug gehalten. Doch die neuen Wunderwerke der Technologie sind größtenteils den Technikexpert:innen vorbehalten. Das bedeutet jedoch nicht, dass keine beeindruckenden Produkte und Anwendungen entstehen – ganz im Gegenteil! StyleGANs (Generative Adversarial Networks) liefern nie dagewesene Bildqualitäten, und Transformer-Modelle wie BERT (Bidirectional Encoder Representations from Transformers) erfassen Texte bis ins kleinste Detail.
Die direkte Bedienung dieser Modelle bleibt jedoch der breiten Masse verwehrt, da sie zu technisch und spezifisch im Umgang sind. Man muss bestimmte Modelle und Architekturen auswählen, erweitern, verknüpfen und trainieren. Dennoch schaffen es Anwendungen wie Chatbots, Customer Service Automation, Generatives Design und AutoML-Lösungen auf den Markt
Zeitraum | Paradigmen | Techniken | Nutzerprofil | Beispiele |
2015-2019 | Latent Spaces, Embeddings | Masked Language Models, GANs | Programmierer, Data Scientists | BERT, StyleGAN |
2019-2022 | Text Prompts | Few Shot, Prompt Engineering | Programmierer (API), Endanwender | GPT-3 |
Ab 2019 – Lift-off
„Bigger is better“ wird zum neuen Credo. Open Source wird abgehängt, und die Welt des Natural Language Processing (NLP) steht Kopf: Large Language Models (LLMs) sind da! Doch das erste Modell, GPT-2, wird 2019 nicht veröffentlicht, da dessen Missbrauch als zu gefährlich eingestuft wird:
“The Elon Musk-backed nonprofit company OpenAI declines to release research publicly for fear of misuse.” (Guardian 14.02.2019)
Die Worte „Musk“, „nonprofit“ und „fear of misuse“ in einem Satz – rückblickend fast schon befremdlich. Ende des Jahres wird GPT-2 dann doch veröffentlicht. Es findet vor allem in der Forschung große Verwendung, um grundlegende Eigenschaften von LLMs zu erkunden. Später dient es auch dazu, im Vergleich zu größeren Modellen die Folgen der Weiterentwicklung besser zu verstehen.
2020 folgt GPT-3 – mit zehnmal mehr Daten und einem hundertmal größeren Modell. 2021 wird DALL-E vorgestellt, gefolgt von DALL-E 2 im Jahr 2022. Texte können nun auch mit natürlicher (geschriebener) Sprache verarbeitet und erstellt werden, allerdings noch nicht im mittlerweile bekannten Dialog, sondern per Few-Shot-Prompt. Für Bilder galt das allerdings nicht, denn in DALL-E und DALL-E 2 konnte man im Prompt keine Beispielbilder mitliefern. Bei diesem Paradigma, heute gängig in den nicht-Chat-Varianten der GPTs, wurde das Modell nicht auf das Führen einer Unterhaltung trainiert, sondern lediglich auf die Vervollständigung von Texten. Das bedeutet, es bedarf Beispielen, etwa in Form von Frage-Antwort-Paaren, um dem Modell klarzumachen, wie es den Text fortzuführen hat.
Ein Beispiel für einen Few-Shot Prompt: Nach drei angegebenen Beispielen folgt der eigentliche Input des Users bis zu dem Wort „Label:“, in der Erwartung, dass das Modell die Aufgabe bzw. den Sinn erfasst und den Text fortführt, indem es die richtige Antwort gibt.
Die Öffentlichkeit, aber auch Entwicklerinnen und Entwickler, werden eindrucksvoll mit dem State-of-the-Art konfrontiert, beispielsweise durch die ersten mit GPT-3 verfassten Artikel.
Im nächsten Teil unserer Serie werden wir uns die jüngsten Entwicklungen und die Revolution der generativen Künstlichen Intelligenz ansehen. Lest dort, wie wir von Few-Shot Prompts zur praktischen Anwendung übergehen, die generative KI der breiten Bevölkerung zugänglich gemacht hat!
Verpasse nicht Teil 3 unserer Blogserie.
Willkommen zu unserer vierteiligen Blogserie zur Geschichte von Generativer Künstlicher Intelligenz. Unser Streifzug durch die Geschichte wird die bedeutenden Meilensteine beleuchten und aufzeigen, wie sich mit jedem Entwicklungsschritt das gesamte Konzept von generativer KI grundlegend gewandelt hat. Von den ersten Gehversuchen, mit Stift und Papier Wahrscheinlichkeitsverteilungen zu skizzieren, bis hin zu den heutigen hochentwickelten Algorithmen, die komplexe und kreative Inhalte generieren – jeder der vier Schritte markiert eine Revolution, kein bloßes Update.
Warum die Geschichte der generativen KI so spannend ist? Weil sie zeigt, wie sich mit jedem technologischen Fortschritt nicht nur die Methoden, sondern auch die Annahmen, die Nutzung, das Publikum und die Interaktion mit den Modellen komplett verändert haben. Was einst als Werkzeug für statistische Analysen begann, ist heute ein kreativer Partner, der in der Lage ist, Kunst, Musik, Text und vieles mehr zu schaffen.
Komm mit uns mit auf die Reise durch die Geschichte von GenAI.
Epoche 1 – Grundlagen
Ein gut gehütetes Geheimnis: Wenn man die Buchstaben von „Data Science“ umstellt, erhält man „Statistik“. Kleiner Scherz. Aber tatsächlich stimmt es, dass die Wurzeln der Datenwissenschaft weit zurückreichen, bis ins 18. Jahrhundert. Damals hatten α, Θ und andere mathematische Symbole noch eher den Charme von Mottenkugeln als von Venture Capital.
Mathematiker wie Gauß, Bayes und eine Reihe kluger Franzosen erkannten schon früh den Wert des Zählens. Sie zählten, zählten noch einmal und verglichen die Ergebnisse – alles per Hand und sehr aufwendig. Doch diese Methoden sind auch heute noch aktuell und bewährt – ein echter Evergreen!
Mit der Erfindung des elektrischen Stroms und dessen Verfügbarkeit begann eine neue Ära. Man konnte nun Daten wesentlich effizienter verarbeiten und auswerten. Die Vorstellung einer „elektronischen Murmelbahn“ für Daten entstand – ein System mit Weichen und Pfaden, das je nach Dateninput verschiedene Aktionen auslöste, wie das Aufleuchten einer Glühbirne oder das Ausführen einer Funktion.
Eine frühe, tatsächlich einsatzfähige Form der Künstlichen Intelligenz war geboren: Algorithmen, die auf Beobachtungen und abgeleiteten Regeln basieren.
Zeitraum | Paradigmen | Techniken | Nutzerprofil | Beispiele |
1700-1960 | Stift, Lötkolben, Lochkarte | Zählen, Sortieren, Annahmen treffen | Ingenieure, Fabrikanten, Forscher | Buchhaltung, Fließbänder, Naturwissenschaften |
1960-2010 | Programmieren von anwendungs- spezifischem Code | Die Gleichen wie zu zuvor, jedoch automatisiert | Statistiker, Informatiker, erste Data Scientists und Machine Learning Forscher | Spamfilter, (Sentiment-) Analyse von Texten, Optical Character Recognition OCR |
Aber was macht diese frühen Modelle generativ? Nun, die „elektronische Murmelbahn“ konnte auch rückwärts betrieben werden. Vorwärts war sie ein statistisches Modell, das einer Beobachtung eine Kategorie oder einen Wert zuordnete. Dafür musste das Modell eine Vorstellung von den Daten haben. Rückwärts jedoch konnten durch zufällige Ziehungen hochwahrscheinliche Exemplare von Pilzen, Murmeln, Daten – sprich, Bilder oder Tabellen – erzeugt werden. Die generativen Fähigkeiten der Modelle wurden jedoch oft unterschätzt, da die Vorwärts-Funktion im Fokus stand.
Diese Methodik nennt sich Naïve Bayesian Classifier. „Naiv“ ist hier nicht abwertend gemeint, sondern bezieht sich auf vereinfachende Annahmen, die die Modellierung erheblich erleichtern. Bei naiven Methoden muss man keine komplexen Zusammenhänge zwischen Variablen wie Myzel, Stiel und Hut eines Pilzes unterstellen. Man sagt einfach: Wenn die durchschnittliche Qualität aller drei Teile gut genug ist, dann ist der Pilz gut.
Einige der ersten Anwendungen dieser Modelle waren die Handschrifterkennung (zum Beispiel bei der Post, bekannt als Optical Character Recognition, oder OCR) sowie bis heute Spam-Filter und allgemeine Textanalysen.
Das war der erste Einblick in die Grundlagen der generativen Künstlichen Intelligenz. Im nächsten Teil unserer Serie tauchen wir in die Welt der neuronalen Netze und maschinellen Lernens ein, die das Fundament für die modernen KI-Systeme gelegt haben. Bleibt neugierig und verpasst nicht den nächsten Meilenstein in der Geschichte der generativen KI!
Verpasse nicht Teil 2 unserer Blogserie.
Die rasante Entwicklung von generativer Künstlichen Intelligenz verändert unsere Welt grundlegend. Mit dem Aufkommen immer leistungsfähiger Sprachmodelle (LLM) – jüngst GPT-4o – treten Frage zu ihrer Intelligenz immer stärker ins Zentrum der Debatte: Sind LLMs intelligent? (Wann) werden sie menschliche Intelligenz übertreffen? Und wie können wir überhaupt mit passenden Begriffen beschreiben, was generative KI (GenAI) „tut”?
Der kanadische Philosoph Marshall McLuhan entwickelte in den 1960er-Jahren eine Medientheorie, die heute noch so aktuell ist, dass sie einen hilfreichen Blickwinkel auf LLMs und generative KI eröffnet. Berühmt geworden ist er vor allem durch einen Satz: „The medium is the message“ – das Medium ist die Botschaft.
Ein Medium ist nach McLuhan eine Erweiterung oder Verringerung der menschlichen Sinne und Körper. Nicht der Inhalt eines Mediums (z. B. bei Büchern die Bibel oder Harry Potter) sondern wie das Medium die kulturelle, ästhetische oder soziale Ordnung umgestaltet, ist entscheidend. McLuhan sagt: „The ‚message‘ of any medium or technology is the change of scale or pace or pattern that it introduces into human affairs“ (z. Dt.: Die “Botschaft” eines jeden Mediums oder einer Technologie ist die Veränderung des Umfangs, des Tempos oder des Musters, die es in die menschlichen Dasein einführt).
Medien verändern unsere Welt – tiefgreifender als wir denken
Ob KI-Chatbots, das Fernsehen, oder der Buchdruck: Alle Medien oder Vehikel einer Technologie prägen und verändern die Erfahrungen ihrer Nutzer:innen und haben gesellschaftliche Folgen. Sie produzieren neue Handlungsstrukturen und verändern unser Verhalten. Der Buchdruck, zum Beispiel, verringerte die Bedeutung mündlicher Kommunikation und gemeinschaftlichen Erzählens. Gleichzeitig ermöglichte er uns, Informationen allein und unabhängig von Autoritäten zu lesen und zu verarbeiten. Das förderte individuelles Denken und Lernen, unabhängig von Institutionen wie der Kirche. Wissen konnte nun weit verbreitet und konserviert werden. Das allgemeine Bildungsniveau stieg rasant und setze gesellschaftliche Emanzipationsprozesse wie die Aufklärung in Gang.
Ein paar Jahrhunderte später steht in fast jedem Wohnzimmer ein Fernseher. Anders als der Buchdruck fördert das Fernsehen eine multisensorische Erfahrung und eine fragmentierte Wahrnehmung. Es erweitert sowohl den visuellen als auch den auditiven Sinn. Im Gegensatz zum linearen und sequenziellen Lesen eines Buches erfordert das Fernsehen eine simultane Verarbeitung von Bild, Ton und Bewegung. Gleichzeitig erfordert es weniger aktive Beteiligung und führt so zu einer passiveren Informationsaufnahme. Durch das Fernsehen wurde die Gesellschaft mehr auf visuelle und emotionale Inhalte fokussiert. Das verändert die Art und Weise, wie Informationen vermittelt und verstanden werden, weg von rein rationalen und textbasierten Medien hin zu emotionaleren und bildbasierten Medien. Fernsehen trägt so zur Bildung eines „Globalen Dorfes“ bei, in dem räumliche und zeitliche Grenzen durch mediale Vernetzung überwunden werden.
Und heute? Mit ChatGPT, Midjourney und Co. verfügen wir über völlig neue Medien. Sie sind Werkzeuge, mit denen sich Millionen Menschen bereits ihren Arbeitsalltag erleichtern. Mit 100 Millionen Nutzer:innen nach zwei Monaten stellte ChatGPT den Rekord für die am schnellsten wachsende Plattform auf. Diese Medien haben bereits zahlreiche Anwendungsbereich, vor allem in der Sprach- und Textverarbeitung. Unternehmen nutzen sie zum Beispiel im Marketing, Support und Vertrieb, um Textübersetzungen zu erstellen und automatisierte Antworten auf Kundenanfragen generieren. Unternehmen wie Geberit zeigen bereits eindrucksvoll, wie leistungsstark KI-Chatbots sein können.
Aber auch in der Medizin hilft KI durch Bild- und Objekterkennung bei der Diagnostik. Das KI-System AlphaFold, zum Beispiel, löste das Problem der Proteinfaltung, indem es die 3D-Struktur von Proteinen mit hoher Genauigkeit vorhersagt. Dadurch verstehen Wissenschaftler:innen Proteine noch besser und können schneller neue Therapien entwickeln. In der Automobilindustrie gewinnen Assistenzsysteme und autonomes Fahren an Bedeutung. Branchenübergreifend werden KI-Systeme in der Qualitätskontrolle und Fehlererkennung eingesetzt. Immer wichtiger wird KI auch im Bereich Bildung. Interaktive, maßgeschneiderte Lernbots verändern schon jetzt grundlegend, wie Menschen lernen.
Aber GenAI-Tools sind noch viel mehr: Als Medien und Vehikel einer neuen Technologie verändern und gestalten sie unsere Wirklichkeit – genau wie der Buchdruck, das Fernsehen und die vielen anderen Technologien und Medien, die Menschen erfunden haben. Sie beeinflussen, wie wir die Welt wahrnehmen und mit ihr interagieren. Diese Einflussnahme reicht von der Art und Weise, wie wir kommunizieren, bis hin zu dem, wie wir Entscheidungen treffen. Aber was bedeutet das konkret? Wird KI die Welt noch dramatischer verändern als das Fernsehen? Warum weckt KI so viel Interesse und erzeugt zugleich so viel Angst?
Was generative KI mit uns macht
Ähnlich wie der Buchdruck ermöglichen LLMs einen schnellen Zugang zu riesigen Mengen an Informationen und Wissen. Das verändert die Art und Weise, wie wir lernen und Wissen erlangen. Die erste Botschaft von KI lautet deshalb: Wir benötigen unsere Gehirne immer weniger zum Speichern von Faktenwissen und zum Verstehen komplexer Konzepte und Denkprozesse. Ein intelligenter Chatbot „weiß” unendlich viel mehr, kann sich alles merken und Inhalte sinnhaft ausgeben. Wichtiger für Menschen werden deshalb strategisches und prozedurales Wissen, also wie man Aufgaben durchführt und Probleme löst. Dieses Wissen ist entscheidend, um zu verstehen, wie man generative KI-Assistenten anleitet, um effizienter Aufgaben zu erledigen (z. B. durch effektives Prompting). Auch soziales und kontextuelles Wissen über Normen und menschliche Interaktionen sowie über Bedingungen, unter denen Ereignisse stattfinden, werden wichtiger. GenAI-Tools verstehen unsere soziale, kulturelle und physische Welt nämlich nicht wie wir, weil sie kein Bewusstsein und (noch) keinen Körper haben, um ihre Umwelt wahrzunehmen.
Die zweite Botschaft von GenAI betrifft neue Formen der sozialen und kreativen Interaktion. Chatbots und andere KI-gestützte Kommunikationsmittel verändern, wie wir miteinander und mit Maschinen interagieren. Sie erweitern unsere Kommunikationsfähigkeiten und schaffen neue Formen der Interaktion, die rund um die Uhr und in Echtzeit verfügbar sind. Sie fördern die globale Vernetzung und kulturelle Integration, z. B., indem Sprachbarrieren durch simultane Übersetzungstools verschwinden. Doch während sie die Erreichbarkeit und Effizienz verbessern, können diese Medien auch zur sozialen Isolation und Entfremdung führen. Der Mangel an physischer und emotionaler Präsenz in maschinellen Interaktionen kann das Gefühl der Verbundenheit verringern. Die Nuancen und Tiefen persönlicher Gespräche können verloren gehen, wenn Maschinen überall als Vermittler fungieren. GenAI-”Kreativität” verdrängt zutiefst menschliche, mühsame Auseinandersetzung mit der Welt und verändert so den Stellenwert des Konzepts Kreativität an sich.
Was bedeutet das alles für das Medium KI? Kurz gesagt: Bei generativer KI geht es vielleicht gar nicht so sehr um den einzelnen Inhalt, also den Output, den ein GenAI-Tool ausgibt. Viele Diskussionen hängen sich daran auf, dass generative KI entweder halluziniert und Mittelmäßigkeit produziert oder bereits kurz davorsteht, Menschen in allem zu übertrumpfen. Dabei verlieren diese Diskussionen die viel wichtigere Frage aus den Augen: Wie verändert sich unser Menschsein durch das Medium?
Denkmaschinen: Von Zettelkästen zu Neuronennetzen
Schon seit Jahrhunderten versuchen Menschen, Maschinen zu schaffen, die denken können. Von mechanischen Automaten bis hin zu komplexen Computerprogrammen: Das Ziel war immer, menschliche Denkprozesse nachzuahmen und zu erweitern. Umberto Eco, ein italienischer Philosoph und Schriftsteller, ging sogar so weit, Texte als Maschinen zu betrachten. Denn sie erzeugen verschiedene, neue Interpretationen und Gedanken, je nachdem, wer sie zu welchem Zeitpunkt und unter welchen Umständen liest. Kontexte, Erfahrungshorizonte, Bildungshintergründe und vieles mehr verändern den Blickwinkel und eröffnen so neue Deutungshorizonte eines Textes.
Neue Denkangebote kreiert auch der berühmte Zettelkasten des Soziologen Niklas Luhmann. Zwischen 1951 und 1997 füllte er diesen mit 90.000 Zetteln. Luhmann nutzte diesen Zettelkasten, der durch ein ausgeklügeltes Nummerierungs- und „Multiple storage“-Prinzip gekennzeichnet ist, um Themenvielfalt zu ermöglichen und den Kontext eines Themas durch verschiedene Verweisstrukturen zu erweitern. Er sah den Zettelkasten als Zweitgedächtnis und Denkwerkzeug, das zu einem diskursiven Partner in der Erzeugung von Wissen wurde. Luhmanns Methode ermöglichte es, durch das zufällige Ziehen und Verknüpfen von Zetteln neue Theorien und Ideen zu entwickeln. Anders gesagt: Durch die Arbeit mit dem Kasten konnten neue Gedanken entstehen, die ohne den Kasten so nicht entstanden wären.
Ganz ähnlich funktionieren neuronale Netze: Sie verknüpfen eine Vielzahl von Informationen in einer Weise, die zu neuen Einsichten und unerwarteten Lösungen führen kann, die vorab nicht erkennbar waren. Durch die komplexe Verknüpfung von Datenpunkten können diese Systeme Ergebnisse produzieren, die weder linear noch vorhersehbar sind (Emergenz). Sie agieren als kognitive Partner, um uns bei der Lösung komplexer Probleme zu unterstützen, indem sie uns helfen, Zusammenhänge zu erkennen, die wir allein vielleicht übersehen hätten.
Erzeugt KI Emergenz?
Können auch LLMs aktiv neue Gedanken generieren – also Emergenz erzeugen? Emergenz beschreibt Phänomene, die entstehen, wenn sich einzelne Teile zu einem größeren Ganzen zusammenfügen und dabei neue Eigenschaften entwickeln, die nicht vorhersehbar waren. In der Welt der KI tritt Emergenz auf, wenn Algorithmen beginnen, in Arten zu „denken“ und zu kommunizieren, die ihre menschlichen Schöpfer:innen nicht direkt vorgesehen hatten.
Forscher:innen von Google DeepMind haben eine mögliche Erklärung gefunden, wie KI-Systeme emergente Fähigkeiten entwickeln. Sie konnten mathematisch beweisen, dass KI-Systeme notwendigerweise ein kausales Modell der Daten und ihrer Zusammenhänge lernen müssen, um sich robust an veränderte Bedingungen anpassen zu können. Ändert sich die Verteilung der Daten, etwa wenn ein KI-Agent in eine neue Umgebung gesetzt wird, muss er seine Strategie mit minimalen Verlusten anpassen können. Je besser seine Anpassungsfähigkeit, desto genauer muss das implizit, nebenbei gelernte Kausalmodell sein.
Allerdings ist umstritten, ob die derzeitigen Methoden und Trainingsdaten dafür ausreichen und ob es sich bei den beobachteten Fähigkeiten um echte kausale Schlussfolgerungen handelt. Zwar kam ein anderes Forschungsteam jüngst zu dem Ergebnis, dass LLMs eine gewisse Fähigkeit zur Schlussfolgerung zu haben scheinen. Aber ohne einen richtigen Stresstest (z. B. mit kontrafaktischen Aufgaben) lässt sich nicht gesichert feststellen, dass sie auf eine allgemeine Art und Weise schlussfolgern. KI-Systeme scheinen sich eher auf ihre Trainingsdaten zu verlassen (approximate retrieval, z. Dt. ungefähres Abrufen), die sich nicht auf Aufgaben außerhalb der Verteilung verallgemeinern lassen.
Doch das muss nicht bedeuten, KI kann nicht beim Denken helfen. Wer kluge Fragen stellt und Prompts ausarbeitet, die ein LLM dazu bringen, komplexe inhaltliche Verknüpfungen zwischen Themen zu machen, kann genauso neue Gedanken erzeugen wie Luhmanns Zettelkasten sie produziert hat. Wer strategisches und kontextuales Wissen klug einsetzt, kann Szenarien erstellen, Bedingungen aufstellen und Rahmen setzen, um mit einem KI-System nützliche und kreative Outputs zu erzeugen.
Der Zauber steckt in den Daten
Denken wir zurück an die Ausgangsfrage: Mit welchen Begriffen können wir beschreiben, was KI macht? Wenn Intelligenz sowohl in biologischen als auch in künstlichen Systemen ein emergentes Phänomen ist, also aus den komplexen Interaktionen und Verbindungen zwischen den Komponenten entsteht, müssen wir genauer auf die Komponenten künstlicher Systeme blicken – nämlich Daten.
Daten sind notwendig, um KI-Systeme zu trainieren. Und nur mit einer großen Menge an Trainingsdaten können KI-Systeme wirklich gut werden. Das bedeutet, dass Daten mehr sind als nur Informationen. Sie sind die Grundlage, auf der KI lernt und Entscheidungen trifft. Ihre Qualität, Vielfalt und Repräsentativität sind entscheidend dafür, wie effektiv, sicher und produktiv eine KI funktioniert.
Erinnern wir uns an McLuhan, der sagte, dass Medien die Art und Weise, wie wir Informationen wahrnehmen, verändern. Was bedeutet das, wenn wir auch Daten als ein eigenes Medium verstehen? Welche Botschaft tragen sie?
Daten beeinflussen, wie eine KI die Welt „sieht“ und interpretiert. Aus diesem Blickwinkel wird KI selbst zur Botschaft. Sie repräsentiert den Übergang zu einer datengetriebenen, automatisierten Welt, in der menschliche und maschinelle Intelligenz verschmelzen. Ihre Existenz und Funktionsweise verändern unser Verständnis davon, was möglich ist. Indem KI zum Beispiel Arbeitsprozesse vereinfacht und automatisiert, verändert sie grundlegend, welche menschlichen Kompetenzen in unserer modernen Gesellschaft an Bedeutung verlieren, und welche künftig sogar wichtiger werden als ein Universitätsabschluss, wie eine Microsoftstudie zeigt:
- 66 Prozent der befragten Führungskräfte sagen, sie würden jemanden ohne KI-Kenntnisse nicht einstellen.
- 71 Prozent würden lieber weniger erfahrene Kandidat:innen mit KI-Kenntnissen einstellen als erfahrenere Kandidat:innen ohne diese.
- 77 Prozent der Führungskräfte wollen Talenten am Anfang ihrer Karriere mit KI größere Verantwortung übertragen.
- 69 Prozent der Befragten sagen, KI könnte ihnen helfen, schneller befördert zu werden.
- 79 Prozent erwarten, dass KI-Kenntnisse ihre Jobchancen erweitern werden.
Die Zahlen belegen eindrucksvoll: KI formt unsere Gesellschaft; sie ist mehr als ihre Inhalte. KI formt die Strukturen, die festlegen, wohin wir uns als Gesellschaft bewegen, was als Nächstes erschaffen wird, welche Weichen wie gestellt werden für die Zukunft, wo investiert wird und wo nicht, was gefördert wird und was nicht.
Was bedeutet das für uns?
Ich denke, die Diskussion über generative KI sollte sich weniger auf die unmittelbaren Inhalte und mehr auf die umfassenden Auswirkungen auf unsere Gesellschaft und unser Selbstverständnis konzentrieren. Marshall McLuhan zeigt uns, dass Medien unsere Sinne und Wahrnehmungen erweitern oder verringern. Generative KI erweitert unsere kognitiven Fähigkeiten und die Art und Weise, wie wir Informationen verarbeiten und kreativ tätig sind. Gleichzeitig stellt sie uns vor neue Herausforderungen: den Wert der Tiefe und Originalität kreativer Arbeit, die Qualität und Repräsentativität von Daten und die potenzielle soziale Isolation durch maschinelle Interaktionen. Generative KI ist eine transformative Kraft, die unser Denken und unsere Wahrnehmung grundlegend verändert und uns dazu anregt, unsere Rolle in dieser neuen Welt kritisch zu hinterfragen und aktiv zu gestalten. Ich lade deshalb alle, die mit und an KI arbeiten, herzlich ein, mit uns zusammen darüber nachzudenken. Welche Veränderungen wollen wir fördern und welche eher nicht? Auf welche Gefahren sollten wir stärker achten und hinweisen? Wo liegen die großen emanzipatorischen Chancen von KI? Lasst es uns gemeinsam herausfinden.
KI-Chatbots kommen in immer mehr Unternehmen zum Einsatz. Doch Chatbot ist nicht gleich Chatbot. Manche Lösungen lassen sich zwar schnell und relativ leicht implementieren. Doch mangelt es ihnen an Konfigurierbarkeit (Customizability) und den Funktionalitäten, die wirklich große Leistungssprünge, z. B. bei der Beantwortung von Kundenanfragen im Customer Service, ermöglichen. Customized Lösungen, die genau das bieten, können wiederum aufwändig und teuer werden – besonders, wenn sie über komplexe und use-case-spezifische Retrieval-Augmented Generation (RAG) verfügen sollen. Die Technik verbessert die Genauigkeit und Zuverlässigkeit von generativen KI-Modellen, indem sie es ermöglicht, z. B. mit unternehmenseigenen Datenbanken zu chatten und nur gesicherte Fakten auszugeben.
Wie funktionieren Chatbots?
Custom GPT-Chatbots lernen aus großen Mengen von Texten, um Zusammenhänge zu verstehen und Muster zu erkennen. Sie werden so programmiert, dass sie individuell auf verschiedene Nutzer:innenanfragen eingehen können. Die Erstellung solcher Chatbots umfasst die maßgeschneiderte Anpassung an bestimmte Bedürfnisse, das gezielte Trainieren mit ausgewählten Daten und das Einbinden in Plattformen wie Websites oder mobile Anwendungen.
CustomGPT von statworx zeichnet sich dadurch aus, dass es das Beste aus beiden Welten – hohe Funktionalität durch Customizability und schnelle Implementierung – miteinander verbindet. Die Lösung ist maßgeschneidert und ermöglicht eine sichere und effiziente Nutzung von ChatGPT-ähnlichen Modellen. Das Interface lässt sich im Corporate Design eines Unternehmens gestalten und leicht in bestehende Geschäftsanwendungen wie CRM-Systeme und Support-Tools integrieren.
Worauf kommt es also an, wenn Unternehmen die ideale Chatbot-Lösung für ihre Bedürfnisse suchen?
Anforderungsanalyse: Zunächst sollten die spezifischen Anforderungen des Unternehmens identifiziert werden, um sicherzustellen, dass der Chatbot optimal auf diese zugeschnitten ist. Welche Aufgaben soll der Chatbot bearbeiten? Welche Abteilungen soll er unterstützen? Welche Funktionen braucht er?
Training des Modells: Ein custom GPT-Chatbots muss mit relevanten Daten und Informationen ausgestattet werden, um eine hohe Genauigkeit und Reaktionsfähigkeit sicherzustellen. Wenn diese Daten nicht verfügbar sind, lohnt sich der technische Aufwand wahrscheinlich nicht.
Integration in bestehende Systeme: Die nahtlose Integration des Chatbots in bestehende Kommunikationskanäle wie Websites, Apps oder soziale Medien ist entscheidend für eine effektive Nutzung. Je nach Infrastruktur eignen sich unterschiedliche Lösungen.
Schnell einsatzbereit und immer anpassungsfähig
Der CustomGPT-Chatbot von statworx zeichnet sich durch seine schnelle Einsatzfähigkeit aus, oft schon innerhalb weniger Wochen. Diese Effizienz verdankt er einer Kombination aus bewährten Standardlösungen und maßgeschneiderter Anpassung an die speziellen Bedürfnisse eines Unternehmens. CustomGPT ermöglicht den Upload von Dateien und die Möglichkeit, mit ihnen zu chatten, also gesicherte Informationen aus den unternehmenseigenen Daten zu ziehen. Mit fortschrittlichen Funktionen wie Faktenprüfung, Datenfilterung und der Möglichkeit, Nutzer:innenfeedback zu integrieren, hebt sich der Chatbot von anderen Systemen ab.
Darüber hinaus bietet CustomGPT Unternehmen die Freiheit, das Vokabular, den Kommunikationsstil und den generellen Ton ihres Chatbots zu bestimmen. Dies ermöglicht nicht nur ein nahtloses Markenerlebnis für die Nutzer:innen, sondern verstärkt auch die Wiedererkennung der Unternehmensidentität durch eine persönliche und einzigartige Interaktion. Ein besonderes Highlight: der Chatbot ist optimiert für die mobile Darstellung auf Smartphones.
Technische Umsetzung
Im Bestreben, eine hochmoderne Anwendung zu schaffen, die sich leicht warten lässt, wurde Python als Kernsprache für das Backend von CustomGPT verwendet. Für die effiziente Handhabung von Anfragen setzen die statworx-Entwickler:innen auf FastAPI, eine moderne Webframework-Lösung, die sowohl Websockets für eine zustandsorientierte Kommunikation als auch eine REST-API für die Dienste bereitstellt. CustomGPT kann flexibel auf unterschiedlichen Infrastrukturen eingesetzt werden – von einer einfachen Cloud-Function bis zu einem Maschinencluster, wenn die Anforderungen dies erfordern.
Ein wesentlicher Aspekt der Architektur ist die Anbindung an eine Datenschicht, um ein flexibles Backend zu bieten, das sich schnell an veränderte Bedingungen und Anforderungen anpassen kann. Die Frontend-Applikation, entwickelt mit React, interagiert nahtlos über Websockets mit dem Backend, welches zum Beispiel die leistungsfähige Azure-AI-Suchfunktion nutzt. Die Konfiguration des Backends ermöglicht es, zusätzliche Use-Cases, wie zum Beispiel maßgeschneiderte Suchlösungen zu implementieren und spezifische Anforderungen effizient zu erfüllen.
Die Vorteile im Überblick:
Datenschutz und Sicherheit
Datenschutz und Datensicherheit sind zentrale Aspekte von CustomGPT. Es gewährleistet, dass alle Daten in der Europäischen Union gespeichert und verarbeitet werden und die vollständige Kontrolle beim Unternehmen liegt. Das ist ein entscheidender Unterschied zu anderen GPT-basierten Lösungen.
Integration und Flexibilität
Die flexible Integration von CustomGPT in bestehende Geschäftsanwendungen ist ein weiterer Vorteil. Dies wird durch Modularität und Anbieterunabhängigkeit unterstützt. Damit kann CustomGPT an verschiedene Infrastrukturen und Modelle angepasst werden, einschließlich Open-Source-Optionen.
Funktionen und Anpassungsmöglichkeiten
Die Anpassungsmöglichkeiten von CustomGPT umfassen die Integration in Organisationsdaten, die Anpassung an Benutzerrollen und die Verwendung von Analytics zur Verbesserung der Konversationen. Durch die Verwendung von Standardmodellen sowie die Möglichkeit, auf Open-Source-Modelle zu setzen, bietet CustomGPT Flexibilität und Individualisierung für Unternehmensanwendungen.
Personalisierte Kundenerfahrung
Durch die Anpassung an die spezifischen Anforderungen eines Unternehmens können Custom GPT-Chatbots eine personalisierte und effektive Interaktion mit Kund:innen gewährleisten.
Effiziente Kundenbetreuung
CustomGPT Chatbots können rund um die Uhr Fragen beantworten, Probleme lösen und Informationen bereitstellen, was zu einer erhöhten Kund:innenzufriedenheit und Effizienz führt.
Skalierbarkeit
Unternehmen können die Kapazität, z. B. ihrer Kund:innenbetreuung mithilfe von GPT-Chatbots problemlos skalieren, um auch bei hohem Aufkommen eine konsistente Servicequalität zu gewährleisten.
Die Zeit für einen eigenen Chatbot ist jetzt! Profitieren Sie von unserer Upstream-Entwicklung mit schneller Bereitstellung und einfacher Implementierung. Als CustomGPT-Kunde stehen Ihnen alle Patches, Bugfixes und neue Funktionalitäten, die im Laufe der Zeit hinzukommen, direkt zur Verfügung. So bleibt Ihr CustomGPT stets so vielseitig und flexibel, dass es den spezifischen, sich ändernden Bedürfnissen gerecht wird und komplexe Anforderungen adressieren kann. Kontaktieren Sie uns jetzt für ein Beratungsgespräch.