Willkommen zurück zu unserer Serie zur Geschichte der Generativen Künstlichen Intelligenz. Im ersten Teil haben wir die Grundlagen erkundet und gesehen, wie frühe statistische Modelle wie der Naïve Bayesian Classifier den Weg für die heutige KI geebnet haben. Nun machen wir einen großen Sprung nach vorne und tauchen in die zweite Epoche ein – eine Zeit des Übergangs, in der neuronale Netze und GPUs die Bühne betreten und die Welt der KI revolutionieren.
Epoche 2 – Übergang
Ab 2015 – Staunen in der Vorstufe
Der KI-Winter ist vorbei, und neuronale Netze sowie GPUs (Grafikprozessoren) haben Einzug gehalten. Doch die neuen Wunderwerke der Technologie sind größtenteils den Technikexpert:innen vorbehalten. Das bedeutet jedoch nicht, dass keine beeindruckenden Produkte und Anwendungen entstehen – ganz im Gegenteil! StyleGANs (Generative Adversarial Networks) liefern nie dagewesene Bildqualitäten, und Transformer-Modelle wie BERT (Bidirectional Encoder Representations from Transformers) erfassen Texte bis ins kleinste Detail.
Die direkte Bedienung dieser Modelle bleibt jedoch der breiten Masse verwehrt, da sie zu technisch und spezifisch im Umgang sind. Man muss bestimmte Modelle und Architekturen auswählen, erweitern, verknüpfen und trainieren. Dennoch schaffen es Anwendungen wie Chatbots, Customer Service Automation, Generatives Design und AutoML-Lösungen auf den Markt
Zeitraum | Paradigmen | Techniken | Nutzerprofil | Beispiele |
2015-2019 | Latent Spaces, Embeddings | Masked Language Models, GANs | Programmierer, Data Scientists | BERT, StyleGAN |
2019-2022 | Text Prompts | Few Shot, Prompt Engineering | Programmierer (API), Endanwender | GPT-3 |
Ab 2019 – Lift-off
„Bigger is better“ wird zum neuen Credo. Open Source wird abgehängt, und die Welt des Natural Language Processing (NLP) steht Kopf: Large Language Models (LLMs) sind da! Doch das erste Modell, GPT-2, wird 2019 nicht veröffentlicht, da dessen Missbrauch als zu gefährlich eingestuft wird:
“The Elon Musk-backed nonprofit company OpenAI declines to release research publicly for fear of misuse.” (Guardian 14.02.2019)
Die Worte „Musk“, „nonprofit“ und „fear of misuse“ in einem Satz – rückblickend fast schon befremdlich. Ende des Jahres wird GPT-2 dann doch veröffentlicht. Es findet vor allem in der Forschung große Verwendung, um grundlegende Eigenschaften von LLMs zu erkunden. Später dient es auch dazu, im Vergleich zu größeren Modellen die Folgen der Weiterentwicklung besser zu verstehen.
2020 folgt GPT-3 – mit zehnmal mehr Daten und einem hundertmal größeren Modell. 2021 wird DALL-E vorgestellt, gefolgt von DALL-E 2 im Jahr 2022. Texte können nun auch mit natürlicher (geschriebener) Sprache verarbeitet und erstellt werden, allerdings noch nicht im mittlerweile bekannten Dialog, sondern per Few-Shot-Prompt. Für Bilder galt das allerdings nicht, denn in DALL-E und DALL-E 2 konnte man im Prompt keine Beispielbilder mitliefern. Bei diesem Paradigma, heute gängig in den nicht-Chat-Varianten der GPTs, wurde das Modell nicht auf das Führen einer Unterhaltung trainiert, sondern lediglich auf die Vervollständigung von Texten. Das bedeutet, es bedarf Beispielen, etwa in Form von Frage-Antwort-Paaren, um dem Modell klarzumachen, wie es den Text fortzuführen hat.
Ein Beispiel für einen Few-Shot Prompt: Nach drei angegebenen Beispielen folgt der eigentliche Input des Users bis zu dem Wort „Label:“, in der Erwartung, dass das Modell die Aufgabe bzw. den Sinn erfasst und den Text fortführt, indem es die richtige Antwort gibt.
Die Öffentlichkeit, aber auch Entwicklerinnen und Entwickler, werden eindrucksvoll mit dem State-of-the-Art konfrontiert, beispielsweise durch die ersten mit GPT-3 verfassten Artikel.
Im nächsten Teil unserer Serie werden wir uns die jüngsten Entwicklungen und die Revolution der generativen Künstlichen Intelligenz ansehen. Lest dort, wie wir von Few-Shot Prompts zur praktischen Anwendung übergehen, die generative KI der breiten Bevölkerung zugänglich gemacht hat!
Verpasse nicht Teil 3 unserer Blogserie.