de
                    array(2) {
  ["de"]=>
  array(13) {
    ["code"]=>
    string(2) "de"
    ["id"]=>
    string(1) "3"
    ["native_name"]=>
    string(7) "Deutsch"
    ["major"]=>
    string(1) "1"
    ["active"]=>
    string(1) "1"
    ["default_locale"]=>
    string(5) "de_DE"
    ["encode_url"]=>
    string(1) "0"
    ["tag"]=>
    string(2) "de"
    ["missing"]=>
    int(0)
    ["translated_name"]=>
    string(7) "Deutsch"
    ["url"]=>
    string(73) "https://www.statworx.com/content-hub/blog/tag/artificial-intelligence-de/"
    ["country_flag_url"]=>
    string(87) "https://www.statworx.com/wp-content/plugins/sitepress-multilingual-cms/res/flags/de.png"
    ["language_code"]=>
    string(2) "de"
  }
  ["en"]=>
  array(13) {
    ["code"]=>
    string(2) "en"
    ["id"]=>
    string(1) "1"
    ["native_name"]=>
    string(7) "English"
    ["major"]=>
    string(1) "1"
    ["active"]=>
    int(0)
    ["default_locale"]=>
    string(5) "en_US"
    ["encode_url"]=>
    string(1) "0"
    ["tag"]=>
    string(2) "en"
    ["missing"]=>
    int(0)
    ["translated_name"]=>
    string(8) "Englisch"
    ["url"]=>
    string(76) "https://www.statworx.com/en/content-hub/blog/tag/artificial-intelligence-en/"
    ["country_flag_url"]=>
    string(87) "https://www.statworx.com/wp-content/plugins/sitepress-multilingual-cms/res/flags/en.png"
    ["language_code"]=>
    string(2) "en"
  }
}
                    
Kontakt

OpenAI hat diese Woche eine neue Version des Sprachmodells hinter ChatGPT veröffentlicht – GPT-4. Die Neuerungen dieses Modells haben das Potenzial, die bisherigen Grenzen des Sprachverständnisses zu erweitern und die Interaktion zwischen Mensch und Maschine auf ein neues Niveau zu bringen. Wir haben uns sofort mit den wichtigsten Neuerungen von GPT-4 beschäftigt und unsere ersten Eindrücke zusammengetragen.

Zu Beginn des Jahres erhielt bereits viel Aufmerksamkeit für seine beeindruckenden Leistungen bei Aufgaben, die die Verarbeitung natürlicher Sprache benötigen. So ist das leistungsstarke Textgenerierungsmodell von OpenAI in der Lage, menschenähnliche Texte zu erzeugen, Code zu vervollständigen oder kurze Gedichte oder Geschichten zu erstellen, auch wenn es noch lange nicht perfekt ist.

Nach eigenen Angaben ist das Modell GPT-4 nun noch kreativer, zuverlässiger und kann komplexe Aufgaben mit größerer Genauigkeit als sein Vorgänger lösen. In einer öffentlichen Demo hat das Modell gezeigt, wie es auf Basis einer einfachen Skizze ein voll funktionsfähiges Websitelayout generieren kann – ein Beispiel für die Fähigkeit von GPT-4, nicht nur Text, sondern auch Bilder zu verarbeiten. Wir werfen einen ersten Blick auf die Neuerungen und Erweiterungen des Sprachmodells.

#1 Neben Text können auch Bilder verarbeitet werden

Das ist neu

GPT-4 ist in der Lage, nicht nur Text, sondern auch visuelle Inhalte in Form von Bildern zu erfassen und zu analysieren. Demnach kann das Modell Bilder beschreiben, interpretieren sowie Zusammenhänge zwischen diesen aufzeigen. Im Rahmen von Vorführungen hat sich gezeigt, dass GPT-4 in der Lage ist, schrittweise Erklärungen von Memes zu liefern oder komplexe Infografiken zusammenzufassen.

Unsere Einschätzung

Die Funktion von GPT-4, Bilder zu verarbeiten, ist momentan lediglich ausgewählten Partnern von OpenAI vorbehalten. Nichtsdestotrotz existieren bereits seit einiger Zeit weitere KI-Systeme, welche die Verknüpfung von Sprache und Bildern ermöglichen. Gerade im Bereich der automatisierten Informationsextraktion aus Dokumenten ist die Erweiterung des Modelinputs auf die visuelle Domäne von Vorteil. So können mit GPT4 auch Informationen berücksichtigt werden, die sich in Abbildungen und Graphen des Dokuments wiederfinden.

#2 Die Performance bei komplexen Aufgaben ist signifikant besser

Das ist neu

GPT-4 hat in zahlreichen Benchmark-Tests im Vergleich zu seinem Vorgänger signifikante Leistungsverbesserungen gezeigt. Insbesondere bei Prüfungen, die in der Regel von Jura- oder naturwissenschaftlichen Studierenden absolviert werden, erzielt das Modell überdurchschnittlich hohe Punktzahlen.

Unsere Einschätzung

Auf den ersten Blick ist das Abschneiden von GPT-4 zweifellos beeindruckend und zeigt, wie gut die KI in der Lage ist, Wissen in Textform wiederzugeben. Man sollte jedoch nicht vergessen, dass die verwendeten Tests konzipiert wurden, um Menschen anhand ihrer Fähigkeiten in einem bestimmten Bereich untereinander zu vergleichen. Anforderungen an eine spezialisierte KI, die für einen bestimmten Teilbereich optimiert wurde, können daher von Leistungsanforderungen an Menschen abweichen.

#3 Der Antwortstil des Models kann je nach Nutzungszweck angepasst werden

Das ist neu

Durch Verwendung einer System Message steht sowohl Entwickler:innen als auch später Nutzer:innen von ChatGPT eine Option zur Verfügung, um den Antwortstil des Sprachmodells anzupassen.

Unsere Einschätzung dazu

Die Möglichkeit das Antwortverhalten von GPT-4 anzupassen, erlaubt Nutzer:innen die Technologie besser auf ihren Anwendungsbereich zuzuschneiden und beispielsweise Serviceerfahrungen zu verbessern. Der Vorteil des gewählten Ansatzes – das Sprachmodell kann einfach für Downstream-Aufgaben optimiert werden, ohne das große Datenmengen oder weitere Trainingsressourcen benötigt werden.

#4 Die verarbeitbare Textmenge verachtfacht sich

Das ist neu

Die Länge des Kontexts, die während des Prozesses der Textgenerierung von GPT-4 genutzt werden kann, steigt in den verschiedenen Versionen auf bis zu 32.000 Wörter oder etwa 50 Seiten an. Somit ist GPT-4 nun in der Lage, Texte mit höherer Kohärenz und einem stärkeren Fokus auf das ursprüngliche Thema zu generieren.

Unsere Einschätzung dazu

Die Fähigkeit, größere Mengen an Texten zu verarbeiten, hat für praktische Anwendungen interessante Auswirkungen. Obwohl ChatGPT bereits über eine sehr gute Zusammenfassungsfähigkeit für kurze Texte verfügt, besteht nun die Möglichkeit, diese Fähigkeit auch auf vollständige Dokumente auszudehnen.

#5 Logische Fehler und Falschaussagen treten weniger häufig auf

Das ist neu

Im direkten Vergleich mit seinem Vorgänger weist der Output von GPT-4 weniger Falschaussagen und Widersprüche auf. Außerdem wurde der Umgang mit Anfragen, die gegen Richtlinien verstoßen, verbessert.

Unsere Einschätzung dazu

Obwohl GPT-4 einige Verbesserungen aufweist, bleibt die Verlässlichkeit des Modeloutputs ein erhebliches Problem, das die Nutzung des Modells einschränkt. Die generierten Texte können nach wie vor von Vorurteilen geprägt sein und Desinformationen enthalten, die sorgfältig geprüft werden sollten.

Ausblick

In der Welt der künstlichen Intelligenz hat OpenAI mit der Veröffentlichung von GPT-4 zweifellos ein spannendes Upgrade seines GPT-3-Modells vorgenommen. Die neuen Funktionen von GPT-4 sind interessant, da sie die Leistung und die Fähigkeiten von KI in vielen Bereichen verbessern können.

Dennoch gibt es einige Einschränkungen und Bedenken, die mit GPT-4 verbunden sind. Im Gegensatz zu früheren Veröffentlichungen ist OpenAI leider deutlich weniger transparent in Bezug auf Modelldetails. So stehen der Öffentlichkeit nur stark begrenzte Informationen über die Modelarchitektur, den Trainingsansatz oder die Datengrundlage des Modells zur Verfügung. Dies macht es beispielsweise schwierig einzuschätzen, inwieweit das Modell Vorurteile übernommen haben könnte, die eine Nutzung beeinflussen.

GPT-4 stellt im Vergleich zu seinem Vorgänger eine Verbesserung dar, aber nicht unbedingt einen großen Schritt nach vorne. Obwohl es einige neue Funktionen gibt, sind diese nicht so revolutionär wie einige erhofft hatten. Es ist daher sehr wichtig, dass wir realistische Erwartungen an die Fähigkeiten von GPT-4 haben und Leistungen und Grenzen des Modells sollten sorgfältig prüfen, bevor wir es in verschiedenen Anwendungen einsetzen. So kann sichergestellt werden, dass die Technologie im Rahmen ihrer derzeitigen Möglichkeiten gewinnbringend eingesetzt wird. Mareike Flögel

Eine Datenkultur ist ein Schlüsselfaktor für die effektive Datennutzung

Mit der zunehmenden Digitalisierung ist die Fähigkeit, Daten effektiv zu nutzen, zu einem entscheidenden Erfolgsfaktor für Unternehmen geworden. Diese Denk- und Handlungsweise wird oft als Datenkultur bezeichnet und spielt eine entscheidende Rolle bei der Umwandlung eines Unternehmens in eine datengesteuerte Organisation. Durch die Förderung einer Datenkultur können Unternehmen von der Flexibilität einer faktenbasierten Entscheidungsfindung profitieren und das Potenzial ihrer Daten voll ausschöpfen. Eine solche Kultur ermöglicht schnellere und nachweislich bessere Entscheidungen und verankert datengetriebene Innovation im Unternehmen.

Obwohl Notwendigkeit und Nutzen einer Datenkultur offensichtlich erscheinen, scheitern dennoch viele Unternehmen an der Herausforderung eine solche Kultur zu etablieren. Einer Studie von New Vantage Partners zur Folge, konnten bisher nur 20% der Unternehmen erfolgreich eine Datenkultur entwickeln. Weiter bezeichnen über 90% der befragten Unternehmen die Veränderung der Kultur als größte Hürde bei der Transformation zum datengetriebenen Unternehmen.

Eine Datenkultur verändert die Arbeitsweise fundamental

Die Ursachen für diese Herausforderung sind vielfältig und die erforderlichen Veränderungen durchdringen nahezu alle Aspekte des Arbeitsalltages. In einer effektiven Datenkultur nutzt jede:r Mitarbeiter:in bevorzugt Daten und Datenanalysen zur Entscheidungsfindung und räumt Daten und Fakten Priorität gegenüber dem individuellen „Bauchgefühl“ ein. Diese Denkweise fördert die stetige Suche nach Möglichkeiten der Datennutzung, um so Wettbewerbsvorteile zu identifizieren, neue Einnahmequellen zu erschließen, Prozesse zu optimieren und bessere Vorhersagen zu treffen. Indem sie sich eine Datenkultur zu eigen machen, können Unternehmen das volle Potenzial ihrer Daten ausschöpfen und Innovationen im gesamten Unternehmen vorantreiben. Das bedingt, dass Daten als wichtige Triebkraft für Entscheidungsfindung und Innovation erkannt werden. Dieses Idealbild stellt neue Anforderungen an das individuelle Verhalten der Mitarbeitenden. Darüber hinaus erfordert dies auch eine gezielte Unterstützung dieses Verhaltens durch geeignete Rahmenbedingungen wie eine technische Infrastruktur und organisatorische Abläufe.

Drei Faktoren prägen die Datenkultur maßgeblich

Um eine Datenkultur nachhaltig im Unternehmen zu verankern, sind vor allem drei Faktoren entscheidend:

  1. Können | Fähigkeiten
  2. Wollen | Einstellung
  3. Machen | Verhalten

statworx nutzt diese drei Faktoren, um einerseits das abstrakte Konzept der Datenkultur greifbar zu machen und andererseits, um gezielt notwendige Veränderungen anzustoßen.

Dabei ist es entscheidend, allen Faktoren gleichermaßen Aufmerksamkeit zu schenken und sie möglichst ganzheitlich zu beachten. Häufig beschränken sich Initiativen zur Kulturentwicklung auf den Aspekt der Einstellung und versuchen bestimmte Werte losgelöst von anderen Einflussfaktoren zu verankern. Diese Initiativen scheitern dann meist an der Realität der Unternehmen, die mit ihren Prozessen, gelebten Ritualen, Praktiken und Werten entgegenstehen und somit die Etablierung der Kultur (aktiv) verhindern.

Zur Übersicht haben wir drei Faktoren der Datenkultur in einem Framework festgehalten.

1. Können: Fähigkeiten bilden die Basis für effektive Datennutzung

Fähigkeiten und Fertigkeiten bilden die Grundlage für den effektiven Umgang mit Daten. Diese umfassen zum einen die methodischen und fachlichen Fähigkeiten der Mitarbeitenden und zum anderen die Fähigkeit der Organisation, Daten nutzbar zu machen.

Für die Nutzbarkeit der Daten ist dabei die Sicherstellung der Datenverfügbarkeit von besonderer Bedeutung. Der „FAIR“-Standard – Findable, Accessible, Interoperable, Reusable – gibt eine Richtung vor, welche Eigenschaften dabei wesentlich sind. Diese können zum Beispiel durch Technologien, Wissensmanagement und eine geeignete Governance unterstützt werden.

Auf Ebene der Fähigkeiten der Mitarbeitenden liegt der Schwerpunkt auf Data Literacy (=Datenkompetenz) – der Fähigkeit, Daten zu verstehen und effektiv zu nutzen, um fundierte Entscheidungen zu treffen. Dazu gehört ein grundlegendes Verständnis von Datentypen und Strukturen, wie auch Erhebungs- und Analysemethoden. Data Literacy beinhaltet auch die Fähigkeit, die richtigen Fragen zu stellen, Daten richtig zu interpretieren und Muster und Trends zu erkennen. Bauen Sie relevante Kompetenzen, zum Beispiel durch Upskilling, gezielte Personalplanung und Einstellung von Datenexperten auf.

2. Wollen: Eine Datenkultur kann nur in passendem Wertekontext gedeihen

Der zweite Faktor – Wollen – befasst sich mit den Einstellungen und Absichten der Mitarbeitenden und der Organisation als Ganzes gegenüber der Nutzung von Daten. Dafür müssen sowohl die Überzeugungen und Werte von Individuen als auch der Gemeinschaft im Unternehmen adressiert werden. Für die Datenkultur sind dabei vier Aspekte von zentraler Bedeutung:

  • Zusammenarbeit & Gemeinschaft statt Konkurrenz
  • Transparenz & Teilen statt Informationsverschleierung & Datenhortung
  • Pilotprojekte & Experimente statt theoretischer Einschätzung
  • Offenheit & Lernbereitschaft statt Kleinlichkeit & starrer Denkweise
  • Daten als zentrale Entscheidungsgrundlage statt individueller Meinung & Bauchgefühl

Fallbeispiel: Unternehmen ohne Datenkultur

Auf individueller Ebene ist ein:e Mitarbeiter:in davon überzeugt, dass man sich mit exklusivem Wissen und Daten einen Vorteil verschaffen kann. Die Person hat innerhalb der Organisation außerdem gelernt, dass sich so strategische Vorteile oder Möglichkeiten zur eigenen Positionierung ergeben, und wurde in der Vergangenheit von Vorgesetzten für solches Verhalten belohnt. Die Person ist also davon überzeugt, dass es absolut sinnvoll und vorteilhaft ist, Daten für sich oder innerhalb des eigenen Teams zu behalten und nicht mit anderen Abteilungen zu teilen. Das Konkurrenzdenken und die Tendenz zur Geheimhaltung sind als Wert fest verankert.

Generell schränkt ein Verhalten wie im Fallbeispiel beschrieben, die Transparenz im gesamten Unternehmen ein und bremst dadurch die Organisation aus. Wenn nicht alle dieselben Informationen haben, ist es schwierig, die bestmögliche Entscheidung für das gesamte Unternehmen zu treffen. Nur durch Offenheit und Kollaboration kann der wahre Wert der Daten im Unternehmen genutzt werden.  Ein datengetriebenes Unternehmen basiert auf einer Kultur der Zusammenarbeit, des Teilens und des Lernens. Wenn Menschen dazu ermutigt werden, ihre Ideen und Erkenntnisse auszutauschen, können bessere Entscheidungen getroffen werden.

Auch mögliche Absichtserklärungen, wie Leitbilder und Manifeste ohne greifbare Maßnahmen, werden an der Einstellung der Mitarbeitenden nur wenig ändern. Die große Herausforderung besteht darin, die Werte nachhaltig zu verankern und für alle Mitarbeitenden zur leitenden Handlungsprämisse zu machen, die im Unternehmensalltag aktiv gelebt wird. Gelingt dies, ist die Organisation auf dem besten Weg das erforderliche Data Mindset zu schaffen, um eine effektive und erfolgreiche Datenkultur zum Leben zu erwecken. Bei der Etablierung und Sichtbarmachung dieser Werte kann zum Beispiel unser Transformations-Framework helfen.

Wir empfehlen den Aufbau einer Datenkultur Schritt für Schritt zu beginnen, denn bereits kleine experimentelle Projekte schaffen Mehrwert, dienen als Positivbeispiel und schaffen Vertrauen. Die praktische Erprobung einer neuen Innovation, selbst nur in einem begrenzten Rahmen, bringt erfahrungsgemäß schneller und bessere Resultate als eine theoretische Einschätzung. Letztlich geht es darum, den Wert von Daten in den Vordergrund zu stellen.

3. Machen: Verhalten schafft den Rahmen und ist gleichzeitig sichtbares Resultat der Datenkultur

Die beiden zuvor genannten Faktoren zielen letztendlich darauf ab, dass Mitarbeitende und die Organisation als Gesamtkonstrukt ihr Verhalten anpassen. Nur aktiv gelebte Datenkultur kann erfolgreich sein. Das alltägliche Verhalten – das Machen – spielt demnach eine zentrale Rolle bei der Etablierung einer Datenkultur.

Das Verhalten der Organisation lässt sich vor allem in zwei Dimensionen betrachten und gleichzeitig durch Veränderungen prägen.

  1. Aktivitäten und Rituale
  2. Strukturelemente der Organisation

Aktivitäten und Rituale:

Aktivitäten und Rituale beziehen sich auf die alltägliche Zusammenarbeit zwischen den Mitarbeitenden einer Organisation. Sie äußern sich in allen Formen der Zusammenarbeit, von den Abläufen in Meetings, über den Umgang mit Feedback und Risiken bis hin zur jährlichen Weihnachtsfeier. Dabei ist entscheidend, welchen Mustern das Miteinander folgt und welches Verhalten belohnt bzw. bestraft wird.

Erfahrungsgemäß fällt die Transformation zu datengetriebenen Entscheidungen den Teams leichter, welche bereits mit agilen Methoden wie Scrum vertraut sind. Teams, welche wiederrum starken Hierarchien folgen und risikoavers agieren, bewältigen diese Herausforderung weniger leicht. Ein Grund dafür ist, dass agile Arbeitsweisen Zusammenarbeit verschiedener Rollen bekräftigen, und so das Fundament für ein produktives Arbeitsumfeld schaffen. In diesem Kontext ist die Rolle der Führung, insbesondere des Senior Leaderships, von entscheidender Bedeutung. Die Personen auf C-Level müssen zwingend von Beginn an das erwünschte Verhalten vorleben, Rituale und Aktivitäten einführen und gemeinsam als zentraler Treiber der Transformation agieren.

Strukturelemente der Organisation:

Während Aktivitäten und Rituale aus den Teams heraus entstehen und nicht immer vorgegeben werden, bildet die zweite Dimension eine stärkere Formalisierung ab. Sie bezieht sich auf die Strukturelemente einer Organisation. Diese bilden den formalen Rahmen für Entscheidungen und prägen dadurch auch das Verhalten, sowie die Entstehung und Verankerung von Werten und Einstellungen.

Dabei wird zwischen internen und externen Strukturelementen unterschieden. Interne Strukturelemente sind vor allem innerhalb der Organisation sichtbar – zum Beispiel Rollen, Prozesse, Hierarchieebenen, oder Gremien. Durch die Anpassungen und Umstrukturierung von Rollen können erforderliche Skills im Unternehmen abgebildet werden. Weiter können Belohnungen und Beförderungen für Mitarbeitende einen Anreiz schaffen das Verhalten selbst anzunehmen und an Kolleg:innen weiterzugeben. Auch die Aufteilung der Arbeitsumgebung ist ein Teil der internen Struktur. Da die Arbeitsweise in datengetriebenen Unternehmen auf enger Zusammenarbeit beruht und Personen mit verschieden Fähigkeiten braucht. Daher bietet es sich an einen Raum für offenen Austausch zu schaffen, der Kommunikation und Kollaboration zulässt.

Externe Strukturelemente spiegeln internes Verhalten nach außen. Demnach beeinflussen die internen Strukturelemente, die Wahrnehmung des Unternehmens von außen. Dies zeigt sich beispielsweise durch eine klare Kommunikation, den Aufbau der Webseite sowie durch Stellenausschreibungen und Marketingbotschaften.

Unternehmen sollten ihr äußeres Verhalten so gestalten, dass es mit den Werten der Organisation übereinstimmt und somit eigene Strukturen unterstützt. Auf diese Weise kann eine harmonische Abstimmung zwischen der internen und der externen Positionierung der Firma erreicht werden.

Erste, kleine Schritte können bereits große Veränderungen schaffen

Unsere Erfahrung hat gezeigt, dass die aufeinander abgestimmte Gestaltung von Können, Wollen und Machen in eine nachhaltige Datenkultur resultiert. Nun ist klar, dass eine Datenkultur nicht von heute auf morgen geschaffen werden kann, aber es auch nicht mehr ohne geht. Es hat sich bewährt diese Herausforderung in kleine Schritte zu unterteilen. Mit ersten Pilotprojekten, wie beispielsweise der Etablierung der Datenkultur in nur einem Team und Initiativen für besonders engagierte Mitarbeitende, die den Wandel vorantreiben wollen, wird Vertrauen in den Kulturwandel geschaffen. Positive Einzelerlebnisse dienen als hilfreicher Katalysator für den Wandel der gesamten Organisation.

Der Philosoph und Visionär R. Buckminster Fuller hat dazu gesagt „Man bewirkt niemals eine Veränderung, indem man das Bestehende bekämpft. Um etwas zu verändern, schafft man neue Dinge oder geht andere Wege, die das Alte überflüssig machen.“ Denn mit der Weiterentwicklung der Technologie müssen Unternehmen in der Lage sein, sich anzupassen, um das gesamte Potential auszuschöpfen. So können Entscheidungen schneller und genauer als je zuvor getroffen, Innovation vorangetrieben und Prozesse zunehmend optimiert werden. Die nachhaltige Etablierung einer Datenkultur wird Unternehmen einen Wettbewerbsvorteil auf dem Markt verschaffen. In der Zukunft wird die Datenkultur ein wesentlicher Bestandteil jeder erfolgreichen Geschäftsstrategie sein. Unternehmen, die dies nicht annehmen, bleiben zurück.

Jedoch ist die Nutzung von Daten für viele Unternehmen ein großes Problem. Oft stehen die Datenqualität und die Zusammenstellung der Daten im Weg. Auch wenn in vielen Unternehmen bereits Datenlösungen vorhanden sind, werden sie nicht optimal genutzt. So bleiben viele Informationen ungenutzt und können nicht in die Entscheidungsfindung einfließen.

Quellen:

[1] https://hbr.org/2020/03/how-ceos-can-lead-a-data-driven-culture

Bild: AdobeStock 569760113 Annsophie Huber

Bei statworx erforschen wir kontinuierlich neue Ideen und Möglichkeiten im Bereich der künstlichen Intelligenz. Die letzten Monate waren von Generativen Modellen geprägt, insbesondere von solchen, die von OpenAI entwickelt wurden (z.B. ChatGPT, DALL-E 2), aber auch von Open-Source-Projekten wie Stable Diffusion. ChatGPT ist ein Text-zu-Text-Modell, während DALL-E 2 und Stable Diffusion Text-zu-Bild-Modelle sind, die auf der Grundlage einer kurzen Textbeschreibung des Benutzers beeindruckende Bilder erstellen. Während der Evaluierung dieser Forschungstrends entdeckten wir eine großartige Möglichkeit, unsere von HP zur Verfügung gestellte GPU-Workstation zu nutzen, damit unsere #statcrew ihre eigenen digitalen Avatare erstellen kann.

Das steckt hinter dem Text-zu-Bild-Generator Stable Diffusion

Text-Bild-Generatoren wie Stable Diffusion und DALL-E 2 basieren auf Diffusionsarchitekturen von künstlichen neuronalen Netzen. Die umfangreichen Trainingsdaten aus dem Internet erfordern oft Monate an Trainingszeit auf Hochleistungsrechnern, um eine optimale Performance zu erreichen. Eine erfolgreiche Implementierung ist daher lediglich durch den Einsatz von Supercomputern möglich. Aber auch nach dem Training benötigen die OpenAI-Modelle immer noch einen Supercomputer, um neue Bilder zu generieren, da ihre Größe die Kapazität von herkömmlichen Computern übersteigt. OpenAI hat Schnittstellen bereitgestellt, um den Zugang zu seinen Modellen zu erleichtern (https://openai.com/product#made-for-developers). Jedoch wurden die Modelle selbst nicht öffentlich freigegeben.

Stable Diffusion hingegen wurde als Text-zu-Bild-Generator entwickelt, ist aber so groß, dass es auf dem eigenen Computer ausgeführt werden kann. Das Open-Source-Projekt ist ein Gemeinschaftsprojekt mehrerer Forschungsinstitute. Seine öffentliche Verfügbarkeit ermöglicht es Forschern und Entwicklern, das trainierte Modell durch sogenanntes fine-tuning für ihre eigenen Zwecke anzupassen. Stable Diffusion ist klein genug, um auf einem Computer ausgeführt zu werden, aber das fine-tuning ist auf einer Workstation (wie der von HP mit zwei NVIDIA RTX8000 GPUs) wesentlich schneller. Obwohl es deutlich kleiner ist als z. B. DALL-E2, ist die Qualität der erzeugten Bilder immer noch hervorragend.

Die genannten Modelle werden durch die Verwendung von Prompts gesteuert, welche eine Beschreibung des gewünschten Bildes in Form von Text enthalten und dadurch das Modell zur Generierung des entsprechenden Bildes angeregt. Für künstliche Intelligenz ist Text direkt nicht verständlich, da alle Algorithmen auf mathematischen Operationen beruhen, die nicht direkt auf Text angewendet werden können.

Daher besteht eine gängige Methode darin, ein so genanntes Embedding zu erzeugen, d. h. Text in mathematische Vektoren umzuwandeln. Das Verständnis des Textes ergibt sich aus dem Training des Übersetzungsmodells von Text zu Embeddings.  Die hochdimensionalen Embedding-Vektoren werden so erzeugt, dass der Abstand der Vektoren zueinander die Beziehung der Originaltexte darstellt. Ähnliche Methoden werden auch für Bilder verwendet, und es werden spezielle Modelle für diese Aufgabe trainiert.

CLIP: Ein hybrides Modell von OpenAI zur Bild-Text-Integration mit kontrastivem Lernansatz

Ein solches Modell ist CLIP, ein von OpenAI entwickeltes Hybridmodell, das die Stärken von Bilderkennungsmodellen und Sprachmodellen kombiniert. Das Grundprinzip von CLIP besteht darin, Embeddings für passende Text- und Bildpaare zu erzeugen. Diese Embedding-Vektoren der Texte und Bilder werden so berechnet, dass der Abstand der Vektordarstellungen der passenden Paare minimiert wird. Eine Besonderheit von CLIP ist, dass es mit Hilfe eines kontrastiven Lernansatzes trainiert wird, bei dem zwei verschiedene Eingaben miteinander verglichen werden und die Ähnlichkeit zwischen ihnen maximiert wird, während die Ähnlichkeit, der nicht übereinstimmenden Paare im selben Durchgang minimiert wird. Dadurch kann das Modell robustere und übertragbare Repräsentationen von Bildern und Texten erlernen, was zu einer verbesserten Leistung bei einer Vielzahl von Aufgaben führt.

Anpassen der Bildgenerierung durch Textual Inversion

Mit CLIP als Vorverarbeitungsschritt der Stable Diffusion-Pipeline, die das Embedding der Prompts erstellt, eröffnet sich eine leistungsstarke und effiziente Möglichkeit, dem Modell neue Objekte oder Stile beizubringen. Dieser Spezialfall des fine-tuning wird als Textual Inversion bezeichnet. Abbildung 1 zeigt diesen Trainingsprozess. Mit mindestens drei Bildern eines Objekts oder Stils und einem eindeutigen Textbezeichner kann Stable Diffusion so gesteuert werden, dass es Bilder dieses spezifischen Objekts oder Stils erzeugt.

Im ersten Schritt wird ein <tag> gewählt, der das Objekt repräsentieren soll.

In diesem Fall ist das Objekt als Johannes definiert, und es werden mehrere Bilder von ihm zur Verfügung gestellt. In jedem Trainingsschritt wird ein zufälliges Bild aus den zur Verfügung gestellten Bildern ausgewählt. Zusätzlich wird eine erklärbare Aufforderung wie „rendering of <tag>“ bereitgestellt, und in jedem Trainingsschritt wird eine zufällige Auswahl dieser Aufforderungen getroffen. Der Teil <tag> wird durch den definierten Begriff (in diesem Fall <Johannes>) ausgetauscht.

Durch Anwendung der Textual Inversion Methode wird das Vokabular des Modells erweitert. Nach Durchführung ausreichender Trainingsiterationen kann das neu feinabgestimmte Modell in die Stable Diffusion-Pipeline integriert werden. Dies führt zu einem neuen Bild von Johannes, wenn der Begriff <Johannes> im Prompt des Nutzers vorkommt. Dem generierten Bild können anschließend je nach Eingabeaufforderung Stile und andere Objekte hinzugefügt werden.

Abbildung 1: Fine-tuning von CLIP mit Textual Inversion.

So sieht es aus, wenn wir KI-generierte Avatare unserer #statcrew erstellen

Wir haben bei statworx allen interessierten Kollegen und Kolleginnen ermöglicht, ihre digitalen Avatare in verschiedensten Kontexten zu positionieren.

Mit der zur Verfügung stehenden HP-Workstation konnten wir die integrierten NVIDIA RTX8000 GPUs nutzen und damit die Trainingszeit im Vergleich zu einer Desktop-CPU um den Faktor 15 reduzieren. Wie man an den Beispielen unten sehen kann, hat es der unserer statcrew viel Spaß gemacht, eine Reihe von Bildern in unterschiedlichen Situationen zu erzeugen. Die folgenden Bilder zeigen ein paar ausgewählte Porträts.

Prompts von links oben nach rechts unten

  1. <Andreas> looks a lot like christmas, santa claus, snow
  2. Robot <Paul>
  3. <Markus> as funko, trending on artstation, concept art, <Markus>, funko, digital art, box (, superman / batman / mario, nintendo, super mario)
  4. <Johannes> is very thankful, art, 8k, trending on artstation, vinyl·
  5. <Markus> riding a unicorn, digital art, trending on artstation, unicorn, (<Markus> / oil paiting)·
  6. <Max> in the new super hero movie, movie poster, 4k, huge explosions in the background, everyone is literally dying expect for him
  7. a blonde emoji that looks like <Alex>
  8. harry potter, hermione granger from harry potter, portrait of <Sarah>, concept art, highly detailed

Stable Diffusion und Textual Inversion stellen spannende Entwicklungen auf dem Gebiet der künstlichen Intelligenz dar. Sie bieten neue Möglichkeiten für die Erstellung einzigartiger und personalisierter Avatare, sind aber auch auf verschiedene Stile anwendbar. Wenn wir diese und andere KI-Modelle weiter erforschen, können wir die Grenzen des Möglichen erweitern und neue und innovative Lösungen für reale Probleme schaffen.

 

Bilderquelle: Adobe Stock 546181349  Johannes Gensheimer

In einer schnelllebigen und datengesteuerten Welt ist die Verwaltung von Informationen und Wissen essenziell. Insbesondere Unternehmen sind darauf angewiesen, Wissen intern so schnell, verständlich und knapp wie möglich zugänglich zu machen. Knowledge Management ist der Prozess der Schaffung, Extraktion und Nutzung von Wissen zur Verbesserung der Unternehmensleistung. Es umfasst Methoden, die Organisationen dabei helfen, Wissen zu identifizieren und zu extrahieren, zu verteilen und zu nutzen, um ihre Ziele besser zu erreichen. Dies kann jedoch eine komplexe und schwierige Aufgabe sein, insbesondere in großen Unternehmen.

Natürliche Sprachverarbeitung (NLP) verspricht hier Abhilfe. Diese Technologie hat das Potenzial, die Knowledge-Strategie von Unternehmen zu revolutionieren. NLP ist ein Zweig der künstlichen Intelligenz, der sich mit der Interaktion zwischen Computern und menschlicher Sprache befasst. Durch den Einsatz von NLP können Unternehmen Erkenntnisse aus großen Mengen unstrukturierten Textmengen gewinnen und diese in verwertbares Wissen umwandeln.

In diesem Blogbeitrag untersuchen wir anhand eines Fallbeispiels, wie NLP Knowledge Management verbessern kann und wie Unternehmen NLP nutzen können, um komplexe Prozesse schnell, sicher und automatisiert durchzuführen. Wir untersuchen die Vorteile des Einsatzes von NLP im Knowledge Management, welche verschiedenen NLP-Techniken dabei zum Einsatz kommen und wie Unternehmen NLP einsetzen können, um mithilfe von künstlicher Intelligenz ihre Ziele besser erreichen zu können.

Fallbeispiel für effektives Knowledge Management

Am Fallbeispiel des E-Mail-Verkehrs in einem Bauprojekt wollen wir die Anwendung und den Mehrwert natürlicher Sprachverarbeitung illustrieren. Dabei nutzen wir zwei E-Mails als konkrete Beispiele, die während des Bauprojekts ausgetauscht wurden: eine Auftragsbestätigung für bestellte Artikel und eine Beschwerde über deren Qualität.

Für einen Neubau hat der Bauherr bei einer Vielzahl von Zulieferern Angebote für Produkte eingeholt, unter anderem auch für Wärmedämmungen. Schlussendlich wurden diese bei einem Zulieferer bestellt. In einer E-Mail klärt der Zulieferer den Bauherrn über die bestellten Artikel, deren Eigenschaften und Kosten auf und bestätigt gleichzeitig die Lieferung zu einem festgelegten Datum. Zu einem späteren Zeitpunkt stellt der Bauherr fest, dass die Qualität der gelieferten Produkte nicht den erhofften Standards entsprechen.  Diesen Umstand teilt der Bauherr dem Zulieferer in einer schriftlichen Beschwerde auch als E-Mail mit. Im Fließtext dieser E-Mails ist eine Fülle von Informationen erhalten, die sich mittels NLP-Methoden herausschälen, aufbereiten und zum besseren Verständnis weiterverarbeiten lassen. Durch die große Fülle an verschiedenen Angeboten und Interaktionen wird die manuelle Bearbeitung sehr aufwändig – programmatische Auswertung der Kommunikation verschafft hierbei Abhilfe.

Im Folgenden stellen wir eine Knowledge Management Pipeline vor, die schrittweise diese beiden E-Mails auf ihre Inhalte prüft, und den Usern  durch Textverarbeitung den jeweils größtmöglichen Nutzen bietet. Jetzt einfach auf die interaktiven Felder klicken, um zu sehen, wie die Knowledge Management Pipeline funktioniert!

Zusammenfassung (Task: Summarization)

In einem ersten Schritt kann der Inhalt jedes Textes zusammengefasst und in wenigen Sätzen auf den Punkt gebracht werden. Dies reduziert den Fließtext auf Wichtiges (wie Informationen und Wissen), entfernt Unwichtiges (wie Floskeln und Wiederholungen) und verringert stark die Menge an zu lesendem Text.

Besonders bei langen E-Mails ist der Mehrwert allein durch die Zusammenfassung enorm: Die Auflistung der wichtigen Inhalte als Stichpunkte spart Zeit, verhindert Missverständnisse und das Übersehen wichtiger Details.

Allgemeine Zusammenfassungen sind bereits hilfreich, aber mithilfe der neusten Sprachmodelle kann NLP noch einiges mehr. Bei einer allgemeinen Zusammenfassung wird die Textlänge bei gleichbleibender Informationsdichte so weit wie möglich reduziert. Große Sprachmodelle können nicht nur eine allgemeine Zusammenfassung produzieren, sondern diesen Vorgang auch an spezifische Bedürfnisse der Mitarbeitenden anpassen. So können zum Beispiel Fakten hervorgehoben, oder technisches Jargon vereinfacht werden. Insbesondere lassen sich Zusammenfassungen für ein spezifisches Publikum, beispielweise eine bestimmte Abteilung im Unternehmen, durchführen.

Für unterschiedliche Abteilungen und Rollen sind unterschiedliche Informationen relevant. Deshalb sind Zusammenfassungen besonders dann nützlich, wenn sie spezifisch auf die Interessen einer Abteilung oder Rolle zugeschnitten sind. So enthalten die beiden E-Mails aus unserem Fallbeispiel Informationen, die für die Rechts-, Operations- oder Finanzabteilung unterschiedlich relevant sind. Deshalb wird in einem nächsten Schritt für jede Abteilung je eine separate Zusammenfassung erstellt:

 

Dadurch fällt es den Nutzer:innen noch leichter, die für sie relevanten Informationen zu erkennen und zu verstehen und gleichzeitig die richtigen Schlüsse für ihre Arbeit zu ziehen.

Generative NLP-Modelle ermöglichen es nicht nur, Texte auf das Wesentliche herunterzubrechen, sondern auch Erklärungen zu Unklarheiten und Details zu liefern. Ein Beispiel dafür ist die Erklärung einer in der Auftragsbestätigung nur mit Akronym genannten Verordnung, deren Details der User möglicherweise nicht präsent sind. Dadurch entfällt eine lästige Onlinesuche nach einer passenden Erklärung.

 

 

Knowledge Extraction (Task: NER, Sentiment Analysis, Classification)

Als nächster Schritt sollen die E-Mails und ihre Inhalte systematisch kategorisiert werden. Dadurch lassen sich eingegangene E-Mails beispielsweise den korrekten Postfächern automatisch zuweisen, mit Metadaten versehen und strukturiert sammeln.

So können E-Mails, die auf einem Kundendienstkonto eingehen, automatisch nach definierten Kategorien klassifiziert werden (Beschwerden, Anfragen, Anregungen, etc). Dadurch entfällt die händische Einteilung in Kategorien, was wiederum die Anfälligkeit für falsche Einteilungen vermindert und für robustere Abläufe sorgt.

Innerhalb dieser Kategorien können die Inhalte von E-Mails erneut anhand semantischer Inhaltsanalyse unterteilt werden, um beispielsweise die Dringlichkeit einer Anfrage zu bestimmen. Dazu gleich noch mehr.

 

Sind die E-Mails einmal korrekt klassifiziert, so können mittels „Named Entitiy Recognition (NER)“ Metadaten aus jedem Text extrahiert und angelegt werden.

NER ermöglicht es, die Entitäten in Texten zu identifizieren und zu benennen. Entitäten können Personen, Orte, Organisationen, Daten oder andere benannte Objekte sein. In Bezug auf E-Mail-Eingänge und deren Inhalten kann NER hilfreich sein, um wichtige Informationen und Zusammenhänge innerhalb der Texte zu extrahieren. Durch die Identifizierung und Kategorisierung von Entitäten können die relevanten Informationen schnell gefunden und klassifiziert werden.

Bei Beschwerden kann NER verwendet werden, um die Namen des Produkts, des Kunden und des Verkäufers zu identifizieren. Diese Informationen können dann verwendet werden, um das Problem zu lösen oder Änderungen an dem Produkt vorzunehmen, um künftige Beschwerden zu vermeiden.

NER kann auch dazu beitragen, dass nach der Klassifizierung, in E-Mails automatisch die relevanten Fakten und Zusammenhänge hervorgehoben werden. Wenn beispielsweise eine Bestellung als E-Mail von einem Kunden eingeht, dann kann NER die relevanten Informationen extrahieren, die E-Mail damit als  Metadaten anreichern und automatisch an entsprechende Vertriebsmitarbeiter:innen weiterleiten.

Similarity (Task: Semantic Similarity)

Erfolgreiches Knowledge Management erfordert zunächst, relevante Daten, Fakten und Dokumente zu identifizieren und zielgerichtet zusammenzutragen. Bei unstrukturierten Textdaten wie E-Mails, die zudem in Informationssilos (also Postfächern) lagern, war dies bislang eine besonders schwierige Aufgabe.   eingegangener E-Mails und deren Überschneidungen noch besser zu erfassen, können Methoden zur semantischen Analyse von Texten eingesetzt werden. „Semantic Similarity Analysis“ ist eine Technologie, die verwendet wird, um die Bedeutung von Texten zu verstehen und die Ähnlichkeiten zwischen unterschiedlichen Texten zu messen.

Im Kontext von Knowledge Management kann semantische Analyse dabei helfen, E-Mails zu gruppieren und diejenigen zu identifizieren, die sich auf dasselbe Thema beziehen oder ähnliche Anfragen enthalten. Auf diese Weise kann die Produktivität von Kundensupport-Teams gesteigert werden, indem sie sich auf die wichtigen Aufgaben konzentrieren können, anstatt viel Zeit damit zu verbringen, E-Mails manuell zu sortieren oder zu suchen.

Darüber hinaus kann semantische Analyse dazu beitragen, Trends und Muster in den eingehenden E-Mails zu erkennen, die möglicherweise auf Probleme oder Optionen für Verbesserungen im Unternehmen hinweisen. Diese Erkenntnisse können dann genutzt werden, um proaktiv auf Kundenbedürfnisse einzugehen oder um Prozesse und Produkte zu verbessern.

Answer Generation (Task: Text Generation)

Zu guter Letzt sollen E-Mails auch beantwortet werden. Wer bereits mit Textvorschlägen in Mailprogrammen experimentiert hat weiß, dass diese Aufgabe wohl noch nicht bereit ist zur Automatisierung. Allerdings können generative Modelle dabei helfen, E-Mails schneller und präziser zu beantworten. Ein generatives Sprachmodell kann auf Basis der eingegangenen E-Mails schnell und zuverlässig Antwortvorlagen generieren, die dann von der bearbeitenden Person lediglich ergänzt, vervollständigt und überprüft werden müssen. Wichtig dabei ist die genaue Überprüfung jeder Antwort vor dem Versand, denn generative Modelle sind dafür bekannt, Resultate zu halluzinieren, also überzeugende Antworten zu generieren, die bei näherer Betrachtung inhaltlich aber Fehler aufweisen. Auch hier können KI-Systeme zumindest teilweise Abhilfe schaffen, indem sie Fakten und Aussagen dieser „Antwortmodelle“ mit einem „Kontrollmodell“ auf Richtigkeit prüfen.

 

 

Fazit

Natürliche Sprachverarbeitung (NLP) bietet Unternehmen zahlreiche Möglichkeiten, um ihre Knowledge Management-Strategien zu verbessern. NLP versetzt uns in die Lage, aus unstrukturiertem Text Informationen präzise zu extrahieren und die Verarbeitung und Bereitstellung von Wissen für Mitarbeitende zu optimieren.

Durch die Anwendung von NLP-Methoden auf E-Mails, Dokumente und andere Textquellen können Unternehmen die Inhalte automatisch kategorisieren, zusammenfassen und auf die wichtigsten Informationen reduzieren. Dadurch können Mitarbeitende schnell und einfach auf wichtige Informationen zugreifen, ohne sich durch lange Seiten von Text kämpfen zu müssen. Dies spart Zeit, verringert die Fehleranfälligkeit und trägt dazu bei, bessere Geschäftsentscheidungen zu treffen.

Im Rahmen eines Bauprojekts haben wir gezeigt, wie NLP in der Praxis eingesetzt werden kann, um E-Mails effizienter zu verarbeiten und die Verwaltung von Wissen zu verbessern. Die Anwendung von NLP-Techniken, wie der Zusammenfassung und der Spezifizierung von Informationen für bestimmte Abteilungen, kann Unternehmen dabei helfen, ihre Ziele besser zu erreichen und ihre Leistungen zu verbessern.

Die Anwendung von NLP im Knowledge Management bietet große Vorteile für Unternehmen. Es kann dabei helfen, Prozesse zu automatisieren, die Zusammenarbeit zu verbessern, die Effizienz zu steigern und die Qualität von Entscheidungen zu optimieren. Unternehmen, die NLP in ihre Knowledge Management-Strategie integrieren, können wertvolle Erkenntnisse gewinnen, die es ihnen ermöglichen, sich in einem immer komplexer werdenden Geschäftsumfeld besser zurechtzufinden.

 

Bildquelle: AdobeStock 459537717 Oliver Guggenbühl, Jonas Braun

Das erwartet euch:

Die enorme Entwicklung von Sprachmodellen wie ChatGPT hat unsere Erwartungen übertroffen. Unternehmen sollten daher verstehen, wie sie von diesen Fortschritten profitieren können.

Im Rahmen unseres auf Führungspositionen ausgerichteten Workshops “ChatGPT for Leaders”, vermitteln wir kompaktes und sofort anwendbares Fachwissen, bieten die Möglichkeit mit anderen Führungskräften und Branchenexperten über die Chancen und Risiken von ChatGPT zu diskutieren und zeigen anhand von Anwendungsfällen, wie Sie Prozesse in Ihrem Unternehmen automatisieren können. Freuen Sie sich auf spannende Vorträge, unter anderem von Timo Klimmer, Global Blackbelt – AI, bei Microsoft und Fabian Müller, COO bei statworx.

Mehr Informationen und eine Anmeldemöglichkeit gibt es hier: ChatGPT for Leaders Workshop

Es ist kein Geheimnis, dass die neuesten Sprachmodelle wie ChatGPT unsere kühnsten Erwartungen weit übertroffen haben. Es ist beeindruckend und erscheint einigen fast unheimlich, dass ein Sprachmodell sowohl ein breites Wissen besitzt als auch die Fähigkeit hat, (fast) jede Frage glaubhaft zu beantworten. Wenige Stunden nach Veröffentlichung dieses Modells begannen bereits die Spekulationen darüber, welche Tätigkeitsfelder durch diese Modelle bereichert, oder womöglich sogar ersetzt werden können, welche Anwendungsfälle sich umsetzen lassen und welche der vielen neuen durch ChatGPT entstandenen Start-Up Ideen sich durchsetzen wird.

Es steht außer Frage, dass die kontinuierliche Weiterentwicklung der Künstlichen Intelligenz an Dynamik gewinnt. Während ChatGPT auf einer dritten Modellgeneration basiert, steht ein “GPT-4” bereits in den Startlöchern und Konkurrenzprodukte warten ebenfalls auf ihren großen Moment.

Als Entscheidungsträger in einem Unternehmen ist es jetzt wichtig zu verstehen, wie diese Fortschritte tatsächlich wertsteigernd eingesetzt werden können. In diesem Blogbeitrag widmen wir uns daher den Hintergründen statt dem Hype, geben Beispiele für konkrete Anwendungsfälle in der Unternehmenskommunikation, und legen insbesondere dar, wie eine Implementierung dieser KI-Systeme erfolgreich erfolgen kann.

Was ist ChatGPT?

Stellt man ChatGPT diese Frage, so erhält man die folgende Antwort:

“Chat GPT ist ein großer Sprachmodell, der von OpenAI trainiert wurde, um natürliche Sprache zu verstehen und zu generieren. Es nutzt die Technologie des Deep Learning und der künstlichen Intelligenz, um menschenähnliche Konversationen mit Benutzern zu führen.”

ChatGPT ist der neueste Vertreter aus einer Klasse an KI-Systemen, die menschliche Sprache (also Texte) verarbeiten. Hierbei spricht man von „Natural Language Processing“, kurz NLP. Es ist das Produkt einer ganzen Kette von Innovationen, die im Jahr 2017 mit einer neuen KI-Architektur begann. In den darauffolgenden Jahren wurden auf dieser Basis die ersten KI-Modelle entwickelt, die in Punkto Sprachverständnis das menschliche Niveau erreichten. In den letzten zwei Jahren lernten die Modelle dann zu schreiben und mit Hilfe von ChatGPT sogar mit dem Benutzer ganze Konversationen zu führen. Im Vergleich zu anderen Modellen zeichnet sich ChatGPT dadurch aus, glaubhafte und passende Antworten auf Nutzeranfragen zu generieren.

Neben ChatGPT gibt es inzwischen viele weitere Sprachmodelle in unterschiedlichen Formen: open-source, proprietär, mit Dialogoption oder auch mit anderen Fähigkeiten. Dabei stellte sich schnell heraus, dass diese Fähigkeiten mit größeren Modellen und mehr (insbesondere qualitativ hochwertigen) Daten kontinuierlich gewachsen sind. Anders als vielleicht ursprünglich zu erwarten war, scheint es dabei kein oberes Limit zu geben. Im Gegenteil: je größer die Modelle, desto mehr Fähigkeiten gewinnen sie!

Diese sprachlichen Fähigkeiten und die Vielseitigkeit von ChatGPT sind erstaunlich, doch der Einsatz derartig großer Modelle ist nicht gerade ressourcenschonen. Große Modelle wie ChatGPT werden von externen Anbietern betrieben, die für jede Anfrage an das Modell in Rechnung stellen. Außerdem erzeugt jede Anfrage an größere Modelle nicht nur mehr Kosten, sondern verbraucht auch mehr Strom und belastet damit die Umwelt.

Dabei erfordern zum Beispiel die meisten Chatanfragen von Kunden kein umfassendes Wissen über die gesamte Weltgeschichte oder die Fähigkeit, auf jede Frage amüsante Antworten zu geben. Stattdessen können bestehende Chatbot-Dienste, die auf Unternehmensdaten zugeschnitten sind, durchaus prägnante und akkurate Antworten zu einem Bruchteil der Kosten liefern.

Moderne Sprachmodelle im Unternehmenseinsatz

Warum wollen dennoch viele Entscheidungsträger in den Einsatz von großen Sprachmodelle wie ChatGPT investieren?

Die Antwort liegt in der Integration in organisatorische Prozesse. Große generative Modelle wie ChatGPT ermöglichen uns erstmals den Einsatz von KI in jeder Phase der geschäftlichen Interaktion. Zunächst in der eingehenden Kundenkommunikation, der Kommunikationsplanung und -organisation, dann in der ausgehenden Kundenkommunikation und der Interaktionsdurchführung, und letztendlich im Bereich der Prozessanalyse und -verbesserung.

Im Folgenden gehen wir genauer darauf ein, wie KI diese Kommunikationsprozesse optimieren und rationalisieren kann. Dabei wird schnell deutlich werden, dass es hier nicht nur darum geht, ein einziges fortschrittliches KI-Modell anzuwenden. Stattdessen zeigt sich, dass nur eine Kombination von mehreren Modellen die Problemstellungen sinnvoll angehen kann und in allen Phasen der Interaktion den gewünschten wirtschaftlichen Nutzen bringt.

KI-Systeme gewinnen beispielsweise in der Kommunikation mit Lieferanten oder mit anderen Stakeholdern zunehmend an Relevanz. Um den revolutionären Einfluss von neuen KI-Modellen möglichst konkret darzustellen, betrachten wir jedoch die Art von Interaktion, die für jedes Unternehmen lebensnotwendig ist: Die Kommunikation mit dem Kunden.

Use Case 1: Eingehende Kundenkommunikation mit KI

Herausforderung

Kundenanfragen gelangen über verschiedene Kanäle (E-Mails, Kontaktformulare über die Website, Apps etc.) in das CRM-System und initiieren interne Prozesse und Arbeitsschritte. Leider ist der Prozess oft ineffizient und führt zu Verzögerungen und erhöhten Kosten, da Anfragen falsch zugewiesen oder in einem einzigen zentralen Postfach landen. Bestehende CRM-Systeme sind meist nicht vollständig in die organisatorischen Arbeitsabläufe integriert und erfordern weitere interne Prozesse, die auf organisch gewachsenen Routinen oder organisatorischem Wissen einer kleinen Anzahl von Mitarbeitenden basieren. Dies mindert die Effizienz und führt zu mangelnder Kundenzufriedenheit und hohen Kosten.

Lösung

Kundenkommunikation kann für Unternehmen eine Herausforderung darstellen, aber KI-Systeme können dabei helfen, diese zu automatisieren und zu verbessern. Mithilfe von KI kann die Planung, Initiierung und Weiterleitung von Kundeninteraktionen effektiver gestaltet werden. Das System kann automatisch Inhalte und Informationen analysieren und auf der Grundlage geeigneter Eskalationsniveaus entscheiden, wie die Interaktion am besten abgewickelt werden kann. Moderne CRM-Systeme sind bereits in der Lage, Standardanfragen mithilfe von kostengünstigen Chatbots oder Antwortvorlagen zu bearbeiten. Aber wenn die KI erkennt, dass eine anspruchsvollere Anfrage vorliegt, kann sie einen KI-Agenten wie ChatGPT oder einen Kundendienstmitarbeiter aktivieren, um die Kommunikation zu übernehmen.

Mit den heutigen Errungenschaften im NLP-Bereich kann ein KI-System aber weitaus mehr. Relevante Informationen können aus Kundenanfragen extrahiert und an die zuständigen Personen im Unternehmen weitergeleitet werden. So kann beispielsweise ein Key-Account-Manager Empfänger der Kundennachricht sein, während gleichzeitig ein technisches Team mit den notwendigen Details informiert wird. Auf diese Weise können komplexere Szenarien, die Organisation des Supports, die Verteilung der Arbeitslast und die Benachrichtigung von Teams über Koordinierungsbedarf bewältigt werden. Dabei werden diese Abläufe nicht manuell definiert werden, sondern vom KI-System gelernt.

Lesen Sie auch unser Whitepaper, in dem wir 4 Blueprints für KI-Modelle in der Kommunikation mit Kunden und Lieferanten vorstellen

Blueprint Whitepaper

Die Implementierung eines integrierten Systems kann die Effizienz von Unternehmen steigern, Verzögerungen und Fehler reduzieren und letztlich zu höherem Umsatz und Gewinn führen.

Use Case 2: Ausgehende Kundenkommunikation mit KI

Herausforderung

Kunden setzen voraus, dass ihre Anfragen umgehend, transparent und präzise beantwortet werden. Eine verzögerte oder inkorrekte Reaktion, ein mangelndes Informationsniveau oder eine unkoordinierte Kommunikation zwischen verschiedenen Abteilungen stellen Vertrauensbrüche dar, die sich langfristig negativ auf die Kundenbeziehung auswirken können.

Bedauerlicherweise sind negative Erfahrungen bei vielen Unternehmen an der Tagesordnung. Dies liegt häufig daran, dass die in bestehenden Lösungen implementierten Chatbots Standardantworten und Templates verwenden und nur selten in der Lage sind, Kundenanfragen umfassend und abschließend zu beantworten. Im Gegensatz dazu verfügen fortgeschrittene KI-Agenten wie ChatGPT über eine höhere kommunikative Fähigkeit, die eine reibungslose Kundenkommunikation ermöglicht.

Wenn die Anfrage dann doch zu den richtigen Mitarbeitenden aus dem Kundendienst gelangt, kommt es zu neuen Herausforderungen. Fehlende Informationen führen regelmäßig zu sequenziellen Anfragen zwischen Abteilungen, und daher zu Verzögerungen. Sobald Prozesse – gewollt oder ungewollt – parallel laufen, besteht die Gefahr von inkohärenter Kommunikation mit dem Kunden. Schlussendlich mangelt es sowohl intern als auch extern an Transparenz.

Lösung

KI-Systeme können Unternehmen in allen Bereichen unterstützen.

Fortgeschrittene Modelle wie ChatGPT verfügen über die notwendigen sprachlichen Fähigkeiten, um viele Kundenanfragen vollständig zu bearbeiten. Sie sind in der Lage, mit Kunden zu kommunizieren und gleichzeitig interne Anfragen zu stellen. Dadurch fühlen sich Kunden nicht länger von einem Chatbot abgewimmelt. Die technischen Innovationen des letzten Jahres ermöglichen es KI-Agenten, Anfragen nicht nur schneller, sondern teilweise auch präziser zu beantworten. Dies trägt zur Entlastung des Kundendienstes und interner Prozessbeteiligter bei und führt letztlich zu einer höheren Kundenzufriedenheit.

KI-Modelle können zudem menschliche Mitarbeiter bei der Kommunikation unterstützen. Wie eingangs erwähnt, mangelt es häufig schlichtweg daran, akkurate und präzise Informationen in kürzester Zeit verfügbar zu machen. Unternehmen sind bestrebt, Informationssilos aufzubrechen, um den Zugang zu relevanten Informationen zu erleichtern. Dies kann jedoch zu längeren Bearbeitungszeiten im Kundendienst führen, da die notwendigen Informationen erst zusammengetragen werden müssen. Ein wesentliches Problem besteht darin, dass Informationen in unterschiedlichsten Formen vorliegen können, beispielsweise als Text, tabellarische Daten, in Datenbanken oder sogar in Form von Strukturen wie vorheriger Dialogketten.

Moderne KI-Systeme können mit unstrukturierten und multimodalen Informationsquellen umgehen. Sogenannte Retrieval-Systeme stellen die Verbindung zwischen Kundenanfragen und diversen Informationsquellen her. Der zusätzliche Einsatz von generativen Modellen wie GPT-3 erlaubt dann, die gefundenen Informationen effizient in verständlichen Text zu synthetisieren. So lassen sich zu jeder Kundenanfrage individuelle „Wikipedia Artikel“ generieren. Alternativ kann der Kundendienstmitarbeiter seinerseits seine Fragen an einen Chatbot richten, der die nötigen Informationen unmittelbar und verständlich zur Verfügung stellt.

Es ist offensichtlich, dass ein integriertes KI-System nicht nur den Kundendienst, sondern auch weitere technische Abteilungen entlastet. Diese Art von System hat das Potenzial, die Effizienz im gesamten Unternehmen zu steigern.

Use Case 3: Analyse der Kommunikation mit KI

Herausforderung

Robuste und effiziente Prozesse entstehen nicht von selbst, sondern durch kontinuierliches Feedback und ständige Verbesserungen. Der Einsatz von KI-Systemen ändert nichts an diesem Prinzip. Eine Organisation benötigt einen Prozess der kontinuierlichen Verbesserung, um effiziente interne Kommunikation sicherzustellen, Verzögerungen im Kundenservice effektiv zu verwalten und ergebnisorientierte Verkaufsgespräche zu führen.

Im Dialog nach Außen steht das Unternehmen aber vor einem Problem: Sprache ist eine Black Box. Worte haben eine unübertroffene Informationsdichte, gerade weil ihre Nutzung in Kontext und Kultur tief verwurzelt ist. Damit entziehen sich Unternehmen aber einer klassischen statistisch-kausalen Analyse, denn Feinheiten der Kommunikation lassen sich nur schwer quantifizieren.

Bestehende Lösungen verwenden deshalb Proxyvariablen, um den Erfolg zu messen und Experimente durchzuführen. Zwar lassen sich übergeordnete KPIs wie Zufriedenheitsrankings extrahieren, diese müssen aber beim Kunden abgefragt werden und haben häufig wenig Aussagekraft. Gleichzeitig bleibt oft offen, was an der Kundenkommunikation konkret geändert werden kann, um diese KPIs zu verändern. Es scheitert schon daran, Interaktionen im Detail zu analysieren, herauszufinden was die Dimensionen und Stellschrauben sind, und was schlussendlich optimiert werden kann. Der überwiegende Teil dessen, was Kunden unmittelbar über sich preisgeben möchten, existiert in Text und Sprache und entzieht sich der Analyse. Diese Problematik ergibt sich sowohl beim Einsatz von KI-Assistenzsystemen als auch beim Einsatz von Kundendienstmitarbeitenden.

Lösung

Während moderne Sprachmodelle aufgrund ihrer generativen Fähigkeiten viel Aufmerksamkeit erhalten haben, haben auch ihre analytischen Fähigkeiten enorme Fortschritte gemacht. Die Fähigkeit von KI-Modellen, auf Kundenanfragen zu antworten, zeigt ein fortgeschrittenes Verständnis von Sprache, was für die Verbesserung integrierter KI-Systeme unerlässlich ist. Eine weitere Anwendung besteht in der Analyse von Konversationen, einschließlich der Analyse von Kunden und eigenen Mitarbeitenden oder KI-Assistenten.

Durch den Einsatz von künstlicher Intelligenz können Kunden präziser segmentiert werden, indem ihre Kommunikation detailliert analysiert wird. Hierbei werden bedeutende Themen erfasst und die Kundenmeinungen ausgewertet. Mittels semantischer Netzwerke kann das Unternehmen erkennen, welche Assoziationen verschiedene Kundengruppen mit Produkten verknüpfen. Zudem werden generative Modelle eingesetzt, um Wünsche, Ideen oder Meinungen aus einer Fülle von Kundenstimmen zu identifizieren. Stellen Sie sich vor, Sie könnten persönlich die gesamte Kundenkommunikation im Detail durchgehen, anstatt auf synthetische KPIs vertrauen zu müssen – genau das ermöglichen KI-Modelle.

Natürlich bieten KI-Systeme auch die Möglichkeit, eigene Prozesse zu analysieren und zu optimieren. Hierbei ist die KI-gestützte Dialoganalyse ein vielversprechendes Anwendungsgebiet, das derzeit intensiv in der Forschung behandelt wird. Diese Technologie ermöglicht beispielsweise die Untersuchung von Verkaufsgesprächen hinsichtlich erfolgreicher Abschlüsse. Hierbei werden Bruchpunkte der Konversation, Stimmungs- und Themenwechsel analysiert, um den optimalen Verlauf einer Konversation zu identifizieren. Diese Art von Feedback ist nicht nur für KI-Assistenten, sondern auch für Mitarbeitende äußerst wertvoll, da es sogar während einer laufenden Konversation eingespielt werden kann.

Zusammengefasst kann gesagt werden, dass sich mit dem Einsatz von KI-Systemen die Breite, die Tiefe, und die Geschwindigkeit der Feedbackprozesse verbessert. Dies ermöglicht der Organisation agil auf Trends, Wünsche und Kundenmeinungen zu reagieren und interne Prozesse noch weitreichender zu optimieren.

Lesen Sie auch unser Whitepaper, in dem wir 4 Blueprints für KI-Modelle in der Kommunikation mit Kunden und Lieferanten vorstellen

Blueprint Whitepaper

Stolpersteine, die es zu beachten gilt

Die Anwendung von KI-Systemen hat also das Potential, die Kommunikation mit Kunden grundlegend zu revolutionieren. Ein ähnliches Potential lässt sich auch bei anderen Bereichen zeigen, zum Beispiel im Einkauf. Im Begleitmaterial finden Sie weitere Use-Cases, die zum Beispiel in den Bereichen Knowledge-Management und Procurement anwendbar sind.

Allerdings zeigt sich, dass selbst fortgeschrittenste KI-Modelle noch nicht in Isolation einsatzfähig sind. Um von Spielerei zum effektiven Einsatz zu kommen, braucht es Erfahrung, Augenmaß und ein abgestimmtes System aus KI-Modellen.

Die Integration von Sprachmodellen ist noch wichtiger als die Modelle selbst. Da Sprachmodelle als Schnittstelle zwischen Computern und Menschen agieren, müssen sie besonderen Anforderungen genügen. Insbesondere müssen Systeme, die in Arbeitsprozesse eingreifen, von den gewachsenen Strukturen des Unternehmens lernen. Als Schnittstellentechnologie müssen Aspekte wie Fairness, Vorurteilsfreiheit und Faktenkontrolle in das System integriert werden. Darüber hinaus benötigt das gesamte System eine direkte Eingriffsmöglichkeit für Mitarbeiter, um Fehler aufzuzeigen und bei Bedarf die KI-Modelle neu auszurichten. Dieses „Active-Learning“ ist noch kein Standard, aber es kann den Unterschied zwischen theoretischer und praktischer Effizienz ausmachen.

Der Einsatz von mehreren Modellen die sowohl vor Ort, als auch direkt bei Fremdanbietern laufen, stellt neue Ansprüche an die Infrastruktur. Ebenfalls gilt zu beachten, dass der essenzielle Informationstransfer nicht ohne gründliche Behandlung von personenbezogenen Daten möglich ist. Dies gilt insbesondere, wenn kritische Firmeninformationen eingebunden werden müssen. Wie eingangs beschrieben, gibt es inzwischen viele Sprachmodelle mit unterschiedlichen Fähigkeiten. Daher muss die Architektur der Lösung und die Modelle entsprechend der Anforderungen ausgewählt und kombiniert werden.  Schließlich stellt sich die Frage, ob man auf Anbieter von Lösungen zurückgreift, oder eigene (Teil-)Modelle entwickelt. Derzeit gibt es (entgegen von einigen Marketingaussagen) keine Standardlösung, die allen Anforderungen gerecht wird. Je nach Anwendungsfall gibt es Anbieter von kosteneffizienten Teillösungen. Eine Entscheidung erfordert Kenntnis dieser Anbieter, ihrer Lösung und deren Limitationen.

Fazit

Zusammenfassend kann festgehalten werden, dass der Einsatz von KI-Systemen in der Kundenkommunikation eine Verbesserung und Automatisierung der Prozesse bewirken kann. Eine zentrale Zielsetzung für Unternehmen sollte die Optimierung und Rationalisierung ihrer Kommunikationsprozesse sein. KI-Systeme können dabei unterstützen, indem sie die Planung, Initiation und Weiterleitung von Kundeninteraktionen effektiver gestalten und bei komplexeren Anfragen entweder einen KI-Agenten wie ChatGPT oder einen Kundendienstmitarbeiter aktivieren. Durch die gezielte Kombination von verschiedenen Modellen kann eine sinnvolle Problemlösung in allen Phasen der Interaktion erzielt werden, die den angestrebten wirtschaftlichen Nutzen generiert.

 

Lesen Sie auch unser Whitepaper, in dem wir 4 Blueprints für KI-Modelle in der Kommunikation mit Kunden und Lieferanten vorstellen

Blueprint Whitepaper

  Ingo Marquart

Im Rahmen des Girls’Day bei statworx, haben Mädchen ab der 5. Klasse die Möglichkeit, in die Welt der künstlichen Intelligenz einzutauchen.

Hierbei wollen wir Mädchen, mit Hilfe von spannenden Vorträgen und interaktiven Workshops, für künstliche Intelligenz begeistern und ihnen so neue Berufsperspektiven aufzeigen.

Das haben wir für den Girls’Day geplant:

  1. Einführung in das Thema Künstliche Intelligenz (KI) – Was ist KI?
  2. KI im Alltag – Wo wird KI eingesetzt? Wann interagieren wir mit KI?
  3. KI erleben – Verschiedene KI-Tools ausprobieren
  4. KI-Berufe – Welche gibt es und welche Fähigkeiten brauche ich dafür?

 

Ihr möchtet mitmachen?

Hier anmelden!

Das erwartet euch:

Die konaktiva an der Technischen Universität Darmstadt ist eine der ältesten und größten Unternehmenskontaktmessen und wird jährlich von Studierenden organisiert. Mit über 10.000 Besucher:innen im letzten Jahr und mehr als 200 Ständen ist die konaktiva die ideale Gelegenheit für Unternehmen, Studierende und Absolvent:innen, miteinander in Kontakt zu treten. 

Auch dieses Jahr ist statworx wieder mit einem Stand und mehreren Kolleg:innen auf der konaktiva vertreten. Wir sind an einem der drei Tage (9.05. bis 11.05.) auf der Messe anzutreffen und werden das genaue Datum hier bekannt geben, sobald es feststeht. 

Wir freuen uns schon sehr darauf, uns mit interessierten Studierenden und Absolvent:innen auszutauschen, und sowohl über verschiedene Einstiegsmöglichkeiten – vom Praktikum bis zur Festanstellung – bei statworx zu informieren als auch aus unserem Arbeitsalltag zu berichten. Das Kennenlernen findet aber nicht ausschließlich am Messestand statt – es ist auch möglich, mit uns in vorterminierten Einzelgesprächen in Kontakt zu kommen und individuelle Fragen zu klären. 

Die Teilnahme an der Messe ist für Besucher:innen kostenfrei. 

 

Es weihnachtet sehr bei statworx: In der Mittagspause laufen Weihnachtslieder, das Büro ist festlich geschmückt und die Weihnachtsfeier war bereits ein voller Erfolg. Aber statworx wäre kein Beratungs- und Entwicklungsunternehmen im Bereich Data Science, Machine Learning und KI, wenn wir unsere Expertise und Leidenschaft nicht auch in unsere Weihnachtsvorbereitungen einbringen würden.

Umgeben vom Duft von frischgebackenen Plätzchen und Weihnachtspunsch, kam uns die Idee, einen KI-basierten Weihnachtsrezept-Generator zu entwickeln, der mithilfe von OpenAI Modellen, Texte jeglicher Art vervollständigen und visualisieren kann. Mit GPT-3 genügt die Beschreibung eines Rezeptes, um daraus eine vollständige Zutatenliste sowie eine Kochanleitung zu generieren. Anschließend wird der komplette Text als Bildbeschreibung an DALL-E 2 übergeben, welches diesen in einem hochauflösenden Bild darstellt. Die Anwendung beider Modelle geht natürlich im Berufsalltag weit über den Unterhaltungswert hinaus, jedoch halten wir ein weihnachtliches und spielerisches Kennenlernen mit den Modellen bei Plätzchen und Glühwein für optimal.

Bevor wir gemeinsam kreativ werden und den Weihnachtsrezept-Generator testen, werfen wir in diesem Blogbeitrag zunächst noch einen kurzen Blick auf die dahintersteckenden Modelle.

Die Blätter fallen aber die KI blüht mithilfe von GPT-3 auf

Das Entwicklungstempo der Large-Language-Models und Text-to-Image Modelle der letzten zwei Jahre hat längst die Schallmauer durchbrochen und auch bei uns alle Mitarbeitenden mitgerissen. Von Avataren und internen Memes über synthetische Daten auf Projekten hat nicht nur die Güte der Ergebnisse einen Wandel herbeigeführt, sondern auch die Handhabung der Modelle. Wo einst performanter Code, statistische Auswertungen und viele griechische Buchstaben umhergeschwirrt sind, findet nun die Bedienung einiger Modelle fast schon in Form eines Austauschs oder einer Interaktion statt. Mittels Texten oder stichworthaltigen Aufforderungen entstehen die sogenannten Prompts.

Abb. 1: Lust auf Weihnachtspunsch mit Schuss? Ausgang für dieses Bild war die Aufforderung “A rifle pointed at a Christmas mug”. Durch viel Ausprobieren und meist unerwartet ausführliche Prompts mit vielen Schlagworten lassen sich die Resultate stark beeinflussen.

Diese Form der Interaktion ist unter anderem dem Sprachmodell GPT-3 zu verdanken, das auf einem Deep Learning Modell basiert. Die Ankunft dieses revolutionären Sprachmodells stellte nicht nur für das Forschungsfeld der Sprachmodellierung (NLP) einen Wendepunkt dar, sondern hat ganz nebenbei einen Paradigmenwechsel in der KI-Entwicklung eingeläutet: Das Prompt-Engineering.

Während viele Bereiche des Machine Learnings davon unberührt bleiben, bedeutete es für andere Bereiche sogar den größten Umbruch seit der Verwendung neuronaler Netze. Nach wie vor werden Wahrscheinlichkeitsverteilungen erlernt, Zielgrößen vorhergesagt, oder Embeddings verwendet, also eine Art komprimiertes neuronales Zwischenprodukt, welches für die Weiterverarbeitung und Informationsgehalt optimiert sind. Für andere Anwendungsfälle, meist kreativer Natur, reicht es nun aus, das gewünschte Resultat in natürlicher Sprache anzugeben und auf das Verhalten der Modelle abzustimmen. Mehr zum Thema Prompt Engineering findet man in diesem Blogbeitrag.

Generell ist die Fähigkeit der sogenannten Transformer Modelle, einen Satz und dessen Worte als dynamischen Kontext zu erfassen, eine der wichtigsten Neuerungen. Stichwort Attention! Worte (in diesem Fall Koch- und Backzutaten) können in verschiedenen Rezepten verschiedene Bedeutungen haben. Und diese Beziehungen kann das Modell nun erfassen. Bei unseren ersten KI-Kochversuchen war dies noch nicht der Fall. Wenn starre Word2Vec Modelle verwendet wurden, konnte es vorkommen, dass Rinderbrühe oder pürierte Tomaten anstelle oder zusammen mit Rotwein empfohlen wurden. Ungeachtet, ob es um Gelee für Plätzchen oder Glühwein ging, da die deftige Verwendung in den Trainingsdaten überwog!

Weihnachtliche Bildgenerierung mit DALL-E 2

In unserem Weihnachtsrezept-Generator verwenden wir DALL-E 2, um anschließend aus dem vervollständigten Text ein Bild zu generieren. Bei DALL-E 2 handelt es sich um ein neuronales Netz, welches hochauflösende Bilder anhand Textbeschreibungen generieren kann. Hierbei gibt es keine Grenzen – die aus den kreativen Worteingaben resultierenden Bilder lassen das Unmögliche möglich erscheinen. Es kommt jedoch auch oft zu Missverständnissen, wie man in einigen folgenden Beispielen erkennen kann.

Abb. 2:  Programmiererfahrene werden hier sofort erkennen: It’s not you, it’s me! Komplex, pedantisch, oder einfach logisch… Programme zeigen uns Fehler oder lose Annahmen meist sofort auf.

Nun wird das Kennenlernen mit dem Modell umso wichtiger, da kleine Änderungen im Prompt oder bestimmte Schlagworte das Resultat stark beeinflussen können. Seiten wie PromptHero sammeln bisherige Ergebnisse samt Prompts (die Erfahrungswerte unterscheiden sich übrigens je nach Modell) und geben Inspiration für hochauflösende generierte Bilder.

Abb. 3: Wir wollten testen, was möglich ist und haben Zimtsterne- und Pfefferkuchen-Hawaii mit Ananas und Schinken zu generiert. Die Ergebnisse bewegen sich noch abseits von Geschmack und Würde.

Und wie würde das Modell einen Kaffee an der Akropolis oder im kanadischen Indian Summer zubereiten? Oder einen Pun(s)ch mit Wumms?

Abb. 4: Packs quite the punch.

Komplexe Technik, informelles Kennenlernen

Genug Theorie und zurück zur Praxis.

Nun ist es an der Zeit, unseren Weihnachtsrezept-Generator zu testen und sich anhand eines Rezept-Namens und einer unvollständigen Liste an gewünschten Zutaten, ein Kochrezept empfehlen zu lassen. Kreative Namen, Beschreibungen und Formen werden ermutigt, unkonventionelle Zutaten streng erwünscht und modellseitig überraschende Interpretationen sind fast schon vorprogrammiert.

Zum Weihnachtsrezept-Generator

Das zur Textvervollständigung verwendete GPT-3 Modell ist so vielfältig, dass ganz Wikipedia nicht einmal 0.1% der Trainingsdaten ausmacht und für mögliche neue Anwendungsfälle kein Ende in Sicht ist. Einfach unsere kleine WebApp zum Generieren von Punsch-, Plätzchen- oder beliebigen Rezepten öffnen und staunen, wie weit die Entwicklungen im Natural Language Processing und Text-to-Image gekommen sind.

Wir wünschen viel Spaß!

Jonas Braun

In der Computer Vision Arbeitsgruppe bei statworx hatten wir uns zum Ziel gesetzt, mit Hilfe von Projekten Computer Vision Kompetenzen aufzubauen. Für die diesjährige statworx Alumni Night, die Anfang September stattfand, entstand die Idee eines Begrüßungsroboters, der die ankommenden Mitarbeitenden und Alumni von statworx mit einer persönlichen Nachricht begrüßen sollte. Für die Realisierung des Projekts planten wir ein Gesichtserkennungsmodell auf einem Waveshare JetBot zu entwickeln. Der Jetbot wird von einem NVIDIA Jetson Nano angetrieben, ein kleiner, leistungsfähiger Computer mit einer 128-Core GPU für die schnelle Ausführung moderner KI-Algorithmen. Viele gängige KI-Frameworks wie Tensorflow, PyTorch, Caffe und Keras werden unterstützt. Das Projekt schien sowohl für erfahrene als auch für unerfahrene Mitglieder:innen der Arbeitsgruppe eine gute Möglichkeit zu sein, Wissen im Bereich Computer Vision aufzubauen und Erfahrungen im Bereich Robotik zu sammeln.

Gesichtserkennung (Face Recognition) mithilfe eines JetBots erfordert die Lösung einer Reihe miteinander verbundenen Problemen:

  1. Face Detection: Wo befindet sich das Gesicht auf dem Bild?
    Zunächst muss das Gesicht auf einem gezeigten Bild lokalisiert werden. Nur dieser Teil des Bildes ist relevant für alle folgenden Schritte.
  2. Face Embedding: Welche einzigartigen Merkmale hat das Gesicht?
    Anschließend müssen einzigartige Merkmale des Gesichts erkannt und in einem Embedding kodiert werden, anhand derer es von anderen Personen unterschieden werden kann. Eine damit einhergehende Herausforderung ist, dass das Modell lernen muss mit der Neigung des Gesichts oder schlechter Beleuchtung umzugehen. Daher muss vor der Erstellung des Embeddings die Pose des Gesichts ermittelt und so korrigiert werden, dass das Gesicht zentriert ist.
  3. Namensermittlung: Welches Embedding ähnelt dem erkannten Gesicht am meisten?
    Das Embedding des Gesichts muss schließlich mit den Embeddings aller Personen, die das Modell bereits kennt, verglichen werden, um den Namen der Person zu bestimmen.
  4. UI mit Willkommensnachricht
    Für die Ausgabe der Willkommensnachricht wird eine UI benötigt. Dafür muss zuvor ein Mapping erstellt werden, welches den Namen der zu grüßenden Person der jeweiligen Willkommensnachricht zuordnet.
  5. Konfiguration des JetBots
    Im letzten Schritt muss der JetBot konfiguriert und das Modell auf den JetBot übertragen werden.

Das Trainieren eines solchen Gesichterkennungsmodells ist sehr rechenintensiv, da Millionen von Bildern von Tausenden verschiedenen Personen verwendet werden müssen, um ein leistungsfähiges Neuronales Netz zu erhalten. Sobald das Modell jedoch trainiert ist, kann es Embeddings für jedes beliebige (bekannte oder unbekannte) Gesicht erzeugen. Daher konnten wir glücklicherweise auf bestehende Gesichterkennungsmodelle zurückgreifen und mussten lediglich die Embeddings von den Gesichtern unserer Kolleg:innen und Alumni erstellen. Nichtsdestotrotz sollen die Schritte des Trainings kurz erläutert werden, um ein Verständnis dafür zu vermitteln, wie solche Gesichtserkennungsmodelle funktionieren.

Für die Implementierung verwendeten wir das Pythonpaket face_recognition, welche die Gesichtserkennungsfunktionalität von dlib umschließt und so die Arbeit mit ihr erleichtert. Das neuronale Netz selbst wurde auf einem Datensatz von etwa 3 Millionen Bildern trainiert und erreichte auf dem Datensatz „Labeled Faces in the Wild“ (LFW) eine Genauigkeit von 99,38 % und ist damit anderen Modellen überlegen.

Vom Bild zum codierten Gesicht (Face Detection)

Die Lokalisierung eines Gesichts auf einem Bild erfolgt durch den Histogram of Oriented Gradients (HOG) Algorithmus. Dabei wird jeder einzelne Pixel des Bildes mit den Pixeln in der unmittelbaren Umgebung verglichen und durch einen Pfeil ersetzt, der in die Richtung zeigt, in die das Bild dunkler wird. Diese Pfeile stellen die Gradienten dar und zeigen den Verlauf von hell nach dunkel über das gesamte Bild. Um eine übersichtlichere Struktur zu schaffen, werden die Pfeile auf einer höheren Ebene aggregiert. Das Bild (a) wird in kleine Quadrate von je 16×16 Pixeln unterteilt und mit der Pfeilrichtung ersetzt, die am häufigsten vorkommt (b). Anhand der HOG-kodierten Version des Bildes kann nun der Teil des Bildes gefunden werden, der einer HOG-Kodierung eines Gesichts (c) am ähnlichsten ist. Nur dieser Teil des Bildes ist relevant für alle folgenden Schritte.

Abbildung 1: Quelle HOG face pattern: https://commons.wikimedia.org/wiki/File:Dlib_Learned-HOG-Detector.jpg

Mit Embeddings Gesichter lernbar machen

Damit das Gesichtserkennungsmodell unterschiedliche Bilder einer Person trotz Neigung des Gesichts oder schlechter Beleuchtung der gleichen Person zuordnen kann, muss die Pose des Gesichts ermittelt und so projeziert werden, dass sich die Augen und Lippen immer an der gleichen Stelle im Bild befinden. Dabei kommt der Algorithmus Face Landmark Estimation zum Einsatz, welcher mithilfe eines Machine Learning Modells spezifische Orientierungspunkte im Gesicht finden kann. Dadurch können wir Augen und Mund lokalisieren und durch grundlegende Bildtransformationen wie Drehen und Skalieren so anpassen, dass beides möglichst zentriert ist.

Abbildung 2: Face landmarks (links) und Projektion des Gesichts (rechts)

Im nächsten Schritt wird mithilfe eines neuronalen Netzes ein Embedding des zentrierten Gesichtsbilds erstellt. Das neuronale Netz erlernt sinnvolle Embeddings, indem es innerhalb eines Trainingsschrittes drei Gesichtsbilder gleichzeitig betrachtet: Zwei Bilder einer bekannten Person und ein Bild einer anderen Person. Das neuronale Netz erstellt die Embeddings der drei Bilder und optimiert seine Gewichte, sodass die Embeddings der Bilder der gleichen Person angenähert werden, und sich stärker mit dem Embedding der anderen Person unterscheidet. Nachdem dieser Schritt millionenfach für unterschiedliche Bilder von verschiedenen Personen wiederholt wurde, lernt das neuronale Netz repräsentative Embeddings zu erzeugen. Die Netzwerkarchitektur des Gesichtserkennungsmodells von dlib basiert auf dem ResNet-34 aus dem Paper Deep Residual Learning for Image Recognition von He et al., mit weniger Layern und einer um die Hälfte reduzierten Anzahl von Filtern. Die erzeugten Embeddings sind 128-dimensional.

Abgleich mit gelernten Embeddings in Echtzeit

Für unseren Begrüßungsroboter konnten wir glücklicherweise auf das bestehende Modell von dlib zurückgreifen. Damit das Modell die Gesichter der aktuellen und ehemaligen statcrew erkennen kann, mussten nur noch die Embeddings erstellt werden. Dafür haben wir die offiziellen statworx Bilder verwendet und das resultierende Embedding zusammen mit dem Namen der Person abgespeichert. Wird danach ein unbekanntes Bild in das Modell gegeben, erkennt dieses Gesicht, zentriert es und erstellt dafür ein Embedding. Das erstellte Embedding wird anschließend mit den abgespeicherten Embeddings der bekannten Personen verglichen und bei großer Ähnlichkeit wird der Name dieser Person ausgegeben. Ist kein ähnliches Embedding vorhanden, gibt es keine Übereinstimmung mit den gespeicherten Personen. Mehr Bilder einer Person und damit mehrere Embeddings pro Person verbessern die Performanz des Modells. Unsere Tests zeigten jedoch, dass unsere Gesichter auch mit nur einem Bild pro Person recht zuverlässig erkannt wurden. Nach diesem Schritt hatten wir nun ein gutes Modell, welches in Echtzeit Gesichter in der Kamera erkannte und den zugehörigen Namen anzeigte.

Eine herzliche Begrüßung über ein UI

Unser Plan war es den Roboter mit einem kleinen Bildschirm oder einem Lautsprecher auszustatten, auf dem die Begrüßungsnachricht dann zu sehen bzw. zu hören sein sollte. Für den Anfang hatten wir uns dann aber dazu entschieden, den Roboter an einen Monitor anzuschließen und eine UI für den Monitor zu bauen. Deshalb entwickelten wir zunächst lokal eine simple UI. Dafür ließen wir die Begrüßungsnachricht auf einem Hintergrund mit den statworx Firmenwerten anzeigen und projizierten das Kamerabild in die untere rechte Ecke. Damit jede Person eine personalisierte Nachricht erhält, mussten wir eine json-Datei anlegen, welche das Mapping von den Namen zur Willkommensnachricht definiert. Für unbekannte Gesichter hatten wir die Willkommensnachricht „Welcome Stranger!“ angelegt. Aufgrund der vielen Namensvettern bei statworx hatten alle mit dem Namen Alex zusätzlich einen einzigartigen Identifikator erhalten:

Letzte Hürden vor der Inbetriebnahme des Roboters

Da das Modell und die UI bisher nur lokal liefen, blieb nun noch die Aufgabe das Modell auf den Roboter mit integrierter Kamera zu übertragen. Wie wir dann leider feststellen mussten, war dies komplizierter als gedacht. Wir hatten immer wieder mit Arbeitsspeicherproblemen zu kämpfen und mussten den Roboter insgesamt dreimal neu konfigurieren, bis wir erfolgreich das Modell auf dem Roboter zum Laufen bringen konnten. Die Anleitung für die Konfigurieren des Roboters, welche bei uns zum Erfolg geführt hat, befindet sich hier: https://jetbot.org/master/software_setup/sd_card.html. Die Arbeitsspeicherprobleme konnten sich meist mit einem Reboot beheben.

Der Einsatz des Begrüßungsroboters bei der Alumni Night

Unser Begrüßungsroboter war ein voller Erfolg bei der Alumni Night! Die Gäste waren sehr überrascht und freuten sich über die personalisierte Nachricht.

Abbildung 3: Der JetBot im Einsatz bei der statworx-Alumni-Night

Auch für uns als Computer Vision Cluster war das Projekt ein voller Erfolg. Während des Projekts lernten wir viel über Gesichtserkennungsmodelle und allen damit verbundenen Herausforderungen. Die Arbeit mit dem JetBot war besonders spannend und wir planen bereits fürs nächste Jahr weitere Projekte mit dem Roboter. Sarah Sester

In der Computer Vision Arbeitsgruppe bei statworx hatten wir uns zum Ziel gesetzt, mit Hilfe von Projekten Computer Vision Kompetenzen aufzubauen. Für die diesjährige statworx Alumni Night, die Anfang September stattfand, entstand die Idee eines Begrüßungsroboters, der die ankommenden Mitarbeitenden und Alumni von statworx mit einer persönlichen Nachricht begrüßen sollte. Für die Realisierung des Projekts planten wir ein Gesichtserkennungsmodell auf einem Waveshare JetBot zu entwickeln. Der Jetbot wird von einem NVIDIA Jetson Nano angetrieben, ein kleiner, leistungsfähiger Computer mit einer 128-Core GPU für die schnelle Ausführung moderner KI-Algorithmen. Viele gängige KI-Frameworks wie Tensorflow, PyTorch, Caffe und Keras werden unterstützt. Das Projekt schien sowohl für erfahrene als auch für unerfahrene Mitglieder:innen der Arbeitsgruppe eine gute Möglichkeit zu sein, Wissen im Bereich Computer Vision aufzubauen und Erfahrungen im Bereich Robotik zu sammeln.

Gesichtserkennung (Face Recognition) mithilfe eines JetBots erfordert die Lösung einer Reihe miteinander verbundenen Problemen:

  1. Face Detection: Wo befindet sich das Gesicht auf dem Bild?
    Zunächst muss das Gesicht auf einem gezeigten Bild lokalisiert werden. Nur dieser Teil des Bildes ist relevant für alle folgenden Schritte.
  2. Face Embedding: Welche einzigartigen Merkmale hat das Gesicht?
    Anschließend müssen einzigartige Merkmale des Gesichts erkannt und in einem Embedding kodiert werden, anhand derer es von anderen Personen unterschieden werden kann. Eine damit einhergehende Herausforderung ist, dass das Modell lernen muss mit der Neigung des Gesichts oder schlechter Beleuchtung umzugehen. Daher muss vor der Erstellung des Embeddings die Pose des Gesichts ermittelt und so korrigiert werden, dass das Gesicht zentriert ist.
  3. Namensermittlung: Welches Embedding ähnelt dem erkannten Gesicht am meisten?
    Das Embedding des Gesichts muss schließlich mit den Embeddings aller Personen, die das Modell bereits kennt, verglichen werden, um den Namen der Person zu bestimmen.
  4. UI mit Willkommensnachricht
    Für die Ausgabe der Willkommensnachricht wird eine UI benötigt. Dafür muss zuvor ein Mapping erstellt werden, welches den Namen der zu grüßenden Person der jeweiligen Willkommensnachricht zuordnet.
  5. Konfiguration des JetBots
    Im letzten Schritt muss der JetBot konfiguriert und das Modell auf den JetBot übertragen werden.

Das Trainieren eines solchen Gesichterkennungsmodells ist sehr rechenintensiv, da Millionen von Bildern von Tausenden verschiedenen Personen verwendet werden müssen, um ein leistungsfähiges Neuronales Netz zu erhalten. Sobald das Modell jedoch trainiert ist, kann es Embeddings für jedes beliebige (bekannte oder unbekannte) Gesicht erzeugen. Daher konnten wir glücklicherweise auf bestehende Gesichterkennungsmodelle zurückgreifen und mussten lediglich die Embeddings von den Gesichtern unserer Kolleg:innen und Alumni erstellen. Nichtsdestotrotz sollen die Schritte des Trainings kurz erläutert werden, um ein Verständnis dafür zu vermitteln, wie solche Gesichtserkennungsmodelle funktionieren.

Für die Implementierung verwendeten wir das Pythonpaket face_recognition, welche die Gesichtserkennungsfunktionalität von dlib umschließt und so die Arbeit mit ihr erleichtert. Das neuronale Netz selbst wurde auf einem Datensatz von etwa 3 Millionen Bildern trainiert und erreichte auf dem Datensatz „Labeled Faces in the Wild“ (LFW) eine Genauigkeit von 99,38 % und ist damit anderen Modellen überlegen.

Vom Bild zum codierten Gesicht (Face Detection)

Die Lokalisierung eines Gesichts auf einem Bild erfolgt durch den Histogram of Oriented Gradients (HOG) Algorithmus. Dabei wird jeder einzelne Pixel des Bildes mit den Pixeln in der unmittelbaren Umgebung verglichen und durch einen Pfeil ersetzt, der in die Richtung zeigt, in die das Bild dunkler wird. Diese Pfeile stellen die Gradienten dar und zeigen den Verlauf von hell nach dunkel über das gesamte Bild. Um eine übersichtlichere Struktur zu schaffen, werden die Pfeile auf einer höheren Ebene aggregiert. Das Bild (a) wird in kleine Quadrate von je 16×16 Pixeln unterteilt und mit der Pfeilrichtung ersetzt, die am häufigsten vorkommt (b). Anhand der HOG-kodierten Version des Bildes kann nun der Teil des Bildes gefunden werden, der einer HOG-Kodierung eines Gesichts (c) am ähnlichsten ist. Nur dieser Teil des Bildes ist relevant für alle folgenden Schritte.

Abbildung 1: Quelle HOG face pattern: https://commons.wikimedia.org/wiki/File:Dlib_Learned-HOG-Detector.jpg

Mit Embeddings Gesichter lernbar machen

Damit das Gesichtserkennungsmodell unterschiedliche Bilder einer Person trotz Neigung des Gesichts oder schlechter Beleuchtung der gleichen Person zuordnen kann, muss die Pose des Gesichts ermittelt und so projeziert werden, dass sich die Augen und Lippen immer an der gleichen Stelle im Bild befinden. Dabei kommt der Algorithmus Face Landmark Estimation zum Einsatz, welcher mithilfe eines Machine Learning Modells spezifische Orientierungspunkte im Gesicht finden kann. Dadurch können wir Augen und Mund lokalisieren und durch grundlegende Bildtransformationen wie Drehen und Skalieren so anpassen, dass beides möglichst zentriert ist.

Abbildung 2: Face landmarks (links) und Projektion des Gesichts (rechts)

Im nächsten Schritt wird mithilfe eines neuronalen Netzes ein Embedding des zentrierten Gesichtsbilds erstellt. Das neuronale Netz erlernt sinnvolle Embeddings, indem es innerhalb eines Trainingsschrittes drei Gesichtsbilder gleichzeitig betrachtet: Zwei Bilder einer bekannten Person und ein Bild einer anderen Person. Das neuronale Netz erstellt die Embeddings der drei Bilder und optimiert seine Gewichte, sodass die Embeddings der Bilder der gleichen Person angenähert werden, und sich stärker mit dem Embedding der anderen Person unterscheidet. Nachdem dieser Schritt millionenfach für unterschiedliche Bilder von verschiedenen Personen wiederholt wurde, lernt das neuronale Netz repräsentative Embeddings zu erzeugen. Die Netzwerkarchitektur des Gesichtserkennungsmodells von dlib basiert auf dem ResNet-34 aus dem Paper Deep Residual Learning for Image Recognition von He et al., mit weniger Layern und einer um die Hälfte reduzierten Anzahl von Filtern. Die erzeugten Embeddings sind 128-dimensional.

Abgleich mit gelernten Embeddings in Echtzeit

Für unseren Begrüßungsroboter konnten wir glücklicherweise auf das bestehende Modell von dlib zurückgreifen. Damit das Modell die Gesichter der aktuellen und ehemaligen statcrew erkennen kann, mussten nur noch die Embeddings erstellt werden. Dafür haben wir die offiziellen statworx Bilder verwendet und das resultierende Embedding zusammen mit dem Namen der Person abgespeichert. Wird danach ein unbekanntes Bild in das Modell gegeben, erkennt dieses Gesicht, zentriert es und erstellt dafür ein Embedding. Das erstellte Embedding wird anschließend mit den abgespeicherten Embeddings der bekannten Personen verglichen und bei großer Ähnlichkeit wird der Name dieser Person ausgegeben. Ist kein ähnliches Embedding vorhanden, gibt es keine Übereinstimmung mit den gespeicherten Personen. Mehr Bilder einer Person und damit mehrere Embeddings pro Person verbessern die Performanz des Modells. Unsere Tests zeigten jedoch, dass unsere Gesichter auch mit nur einem Bild pro Person recht zuverlässig erkannt wurden. Nach diesem Schritt hatten wir nun ein gutes Modell, welches in Echtzeit Gesichter in der Kamera erkannte und den zugehörigen Namen anzeigte.

Eine herzliche Begrüßung über ein UI

Unser Plan war es den Roboter mit einem kleinen Bildschirm oder einem Lautsprecher auszustatten, auf dem die Begrüßungsnachricht dann zu sehen bzw. zu hören sein sollte. Für den Anfang hatten wir uns dann aber dazu entschieden, den Roboter an einen Monitor anzuschließen und eine UI für den Monitor zu bauen. Deshalb entwickelten wir zunächst lokal eine simple UI. Dafür ließen wir die Begrüßungsnachricht auf einem Hintergrund mit den statworx Firmenwerten anzeigen und projizierten das Kamerabild in die untere rechte Ecke. Damit jede Person eine personalisierte Nachricht erhält, mussten wir eine json-Datei anlegen, welche das Mapping von den Namen zur Willkommensnachricht definiert. Für unbekannte Gesichter hatten wir die Willkommensnachricht „Welcome Stranger!“ angelegt. Aufgrund der vielen Namensvettern bei statworx hatten alle mit dem Namen Alex zusätzlich einen einzigartigen Identifikator erhalten:

Letzte Hürden vor der Inbetriebnahme des Roboters

Da das Modell und die UI bisher nur lokal liefen, blieb nun noch die Aufgabe das Modell auf den Roboter mit integrierter Kamera zu übertragen. Wie wir dann leider feststellen mussten, war dies komplizierter als gedacht. Wir hatten immer wieder mit Arbeitsspeicherproblemen zu kämpfen und mussten den Roboter insgesamt dreimal neu konfigurieren, bis wir erfolgreich das Modell auf dem Roboter zum Laufen bringen konnten. Die Anleitung für die Konfigurieren des Roboters, welche bei uns zum Erfolg geführt hat, befindet sich hier: https://jetbot.org/master/software_setup/sd_card.html. Die Arbeitsspeicherprobleme konnten sich meist mit einem Reboot beheben.

Der Einsatz des Begrüßungsroboters bei der Alumni Night

Unser Begrüßungsroboter war ein voller Erfolg bei der Alumni Night! Die Gäste waren sehr überrascht und freuten sich über die personalisierte Nachricht.

Abbildung 3: Der JetBot im Einsatz bei der statworx-Alumni-Night

Auch für uns als Computer Vision Cluster war das Projekt ein voller Erfolg. Während des Projekts lernten wir viel über Gesichtserkennungsmodelle und allen damit verbundenen Herausforderungen. Die Arbeit mit dem JetBot war besonders spannend und wir planen bereits fürs nächste Jahr weitere Projekte mit dem Roboter. Sarah Sester