„Im Anfang war das Wort“. So steht es in der Schöpfungsgeschichte der Genesis und so scheint es heute mit dem radikalen, disruptiven und ungebremsten Vormarsch der künstlichen Intelligenz zu sein. Während Features wie Gesichts- und Mustererkennung, das Ausspielen passender Werbung aus Big-Data-Analysen im Internet oder die Berechnung der bestmöglichen Züge im Schach noch als maschinelle Schritte galten, die mit unserer Intelligenz vor allem deshalb zu tun haben, weil wir sie initiieren und nutzen, sieht es bei den generativen Sprachmodellen von Chat GPT oder den bildgenerierenden Text-to-Image Engines nun gänzlich anders aus: Sinn und Unsinn, Wahrheit und Fälschung, Abbild und Illusion werden frei erzeugt, wie von menschlichen Sprechern, Denkern und Schöpfern – nur schneller, präziser und kreativer!
Der damit verbundene Umbruch in allen Bereichen der Gesellschaft – ob in Wirtschaft, Wissenschaft, Recht oder Kunst – ist allenfalls vergleichbar mit dem fundamentalen Wandel unseres Weltbildes zu Beginn der Neuzeit, als nicht mehr die Erde, sondern die Sonne im Mittelpunkt des damaligen Kosmos stand. In seinen alltagspraktischen Konsequenzen geht er aber weit darüber hinaus. Dies ist schon jetzt ohne jede Zukunftsspekulation erkennbar.
Die Fähigkeiten von Chat GPT: Mehr als nur maschinelle Schritte
Nicht mehr der menschliche Intellekt ist „nach Chat GPT“ – der disruptiven Basisinnovation künstlicher Intelligenz und der nach Userzahlen am schnellsten wachsenden Anwendung der IT-Geschichte – Quelle aller Kreativität und Schöpfungskraft, sondern es gibt nun etwas außerhalb unseres Geistes, das kreative Leistungen hervorbringt. Das ist die fundamentale Wende in unserem Verhältnis zu uns selbst und zu allem, was uns umgibt.
Die Revolution von Chat GPT wird nicht erkennbar, wenn wir weiterhin davon ausgehen, dass es sich um einen rein maschinellen Prozess handelt, bei dem aus den endlosen Texten des Internets mit erstaunlicher Rechenleistung aus möglichen Antworten oder Aussagen eine wahrscheinlich gültige herausgefiltert wird. Experimente mit den öffentlich zugänglichen Versionen zeigen dies bereits: Chat GPT kann Texte generieren, die so noch nie geschrieben wurden. Gerade im Bereich logischer Fachsprachen wie Philosophie, Soziologie oder Pädagogik ist die generative Engine in der Lage, völlig neue Kombinationen und Annahmen axiomatisch korrekt und mit virtuoser Kreativität zu kombinieren. Der beiliegende Screenshot zeigt das Beispiel einer nach herrschender Lehrmeinung „falschen“ aber enorm kreativen und axiomatisch richtigen Antwort: Chat GPT wurde in einer hochfachlichen Fragestellung nahegelegt, Max Weber, den „Vater“ der soziologischen Handlungstheorie, als Systemtheoretiker zu interpretieren. Die „Wertsphären“ in Max Webers Differenzierungstheorie (ein Begriff des spezialisierten Fachdiskurses) wurden hierfür in der Fragestellung mit „sozialen Systemen“ im Sinne Luhmanns (also Webers Antipoden) assoziiert. Die Antwort von Chat GPT setzt diesen Gedanken virtuos um – auf dem Niveau eines Hochschulabsolventen oder gar Professors. Es ist, als hätte die KI die innere Logik der Fachsprache so durchdrungen, dass alle Sätze, die sie zu den Fachfragen produziert, fachlich Sinn ergeben. Eine solche Kompetenz war bisher das in Klausuren und Abschlussarbeiten geprüfte Ziel jahrelanger universitärer Ausbildung!
Der Dialog mit Chat GPT: Eine menschliche Note
Der Exkurs in die Fachsprache hat verdeutlich, was es bedeutet, dass Chat GPT ein generatives „Sprachmodell“ ist. Die GPT-Dialoge, die hier dokumentiert sind, zeigen aber noch eine weitere, qualitativ völlig neue Eigenschaft: Chat GPT passt sich im Dialog seinem Gegenüber an, ja redet ihm gewissermaßen „nach dem Munde“ und übernimmt – soweit sinnvoll – dessen Vorgaben. Dabei gestaltet es die Dialogbeiträge nach dessen wahrscheinlichen Erwartungen. „Chat GPT ist ein Schleimer“ hat es ein Kollege, der ähnliche Tests durchführte, einmal formuliert. Doch dies zeigt nur, wie stark der „Chat“ als interpersonaler Dialog gestaltet ist und wirkt. Mit jeder Frage, die wir der KI stellen, lernt sie uns bzw. unsere Erwartungen an die weitere Interaktion besser kennen. Genau wie ein guter Gesprächspartner. Dies gibt KI-Chatbots, die im Bildungskontext als Trainer, Tutoren oder Coaches eingesetzt werden können, eine völlig neue, auch einfühlsame und emphatische Qualität.
Bisher war von „Chat GPT 3.0“ die Rede, also einer KI, die nur Sprache verarbeitet. „Chat GPT 4.0“ setzt diese Fähigkeiten nun „multimodal“ fort, indem es auch Sprache zu Bildern oder Bilder zu Sprache oder Klang oder Bewegtbild in eines von beiden transformiert und damit neue Dimensionen bei der Lösung kreativer Aufgaben erföffnet.
Diese zweite Disruptionslinie, die sich durch die neuen KI-Tools dabei eröffnet, sind die kreativen Transformationen hin zum Bild und Bewegtbild – ob Grafikanimation, „Real“-Film oder sonstige Videoformate. Programme wie Midjourney, Stable Diffusion oder Adobe Firefly sind hierauf spezialisiert und liefern nie gesehene Bildwelten sowie täuschend echte „Deep Fakes“. Die unendlichen Kombinationsmöglichkeiten der sprachlichen Kreativität einer GPT-KI mit der bilderzeugenden Kreativität der KI-Tools eröffnen neue Dimensionen der Gestaltung „in no time“.
Die untenstehende Abbildung zeigt eine mit Adobe Firefly generierte Grafik, die Kröten bei allerlei intellektuellen Aktivitäten zeigen, einschließlich der Verwendung von VR-Brillen. Ein „echter“ 3D-Grafiker würde dafür Stunden oder Tage brauchen, um Modelle und Texturen zu entwickeln, die Perspektiven, Farbwelten und Beleuchtungen zu schaffen und die Bilder in ersten Testversionen und schließlich den Endfassungen zu rendern. “Firefly“ erzeugt sie in Minuten! Es erzeugt sie virtuos und staunend sehen wir ein Ergebnis, das die mit Sprache arbeitenden sich so kaum auch nur hätten vorstellen können.
Aufwändige Illustrationen sind nur einen „Prompt“ entfernt: Aufmerksamkeitsstarke VR-Präsentation mit Bildgenerierung in Adobe Firefly
Aus Sprache wird Bild: Einfache Wege der Bilderzeugung
Für die Produktion bildgestützter Medien und Programme – insbesondere wo es um Bildungsprogramme geht – hat dies eine unmittelbare und direkte Auswirkung: Konzeptgenaue Grafiken sind beinahe „im Handumdrehen“ verfügbar. Es ist nicht mehr notwendig, in Archiven und Beständen aus gleichen Motiven etwas Passendes zu finden. Stattdessen können nun Grafiken und Bilder mit bestimmten, spezifizierbaren Funktionen und Inhalten in beliebiger Menge und Qualität durch KI zielgenau generiert und mit ebenfalls durch KI generierten Hintergründen – oder auch realen Elementen – kombiniert werden.
Beispiele textgenerierter Illustration von Moderationsmethoden, die auch die Fehleranfälligkeit von KI zeigen
Schöpferische Zerstörung: Die disruptive Kraft der KI
Auch „KI-Wertschöpfungsketten“ sind dabei denkbar. Eine KI erstellt einen Beschreibungstext, aus dem eine andere KI ein Bild erzeugt. Eine weitere KI könnte dieses wiederum beschreiben und aus der Beschreibung ein neues Bild erzeugen lassen. Insofern wirkt KI auch selbst innovativ – statt nur eine Innovation zu sein. Wenn Innovation als die neuartige Kombination von Mitteln und Zwecken verstanden wird, dann liegt in der neuartigen Kombination der beschriebenen KI-Mittel ein schier unendliches Innovationspotenzial. Gefüttert mit den entsprechenden „Prompts“ können die kreativen Maschinen diese untereinander austauschen und verbesserte Fassungen generieren. Die verknüpften KI-Anwendungen werden so zu großen, im Rahmen vorgegebener Prompts selbsttätigen Innovationsmaschinen. Die multimodale Kombination von bildlich und sprachlich darstellbaren Mitteln und Zwecken liefert dafür das Muster. Am Ende steht eine unglaubliche Maschine, die sich nach von uns definierten Kriterien selbst verbessert!
Sprache und Bild sind die beiden grundlegenden kulturellen Produkte, die durch die KI revolutioniert werden. Aber es gibt einen dritten Bereich, der die invasive und disruptive Kraft dieser Prozesse bestimmt. Dies ist der Bereich der menschlichen Gestalt, der menschlichen Stimme und des menschlichen „Antlitz“. „Zeige dein Gesicht“. „Gehe aufrecht“. „Zeige deine Haltung“, „Erhebe deine Stimme“. All dies sind Imperative, die den Menschen in seiner Würde, seiner inneren Kraft und seiner Selbstbestimmung betreffen. Die generative KI ist heute in der Lage, von all dem lebensechte Simulationen zu erzeugen: Die „Unreal Engine“ erzeugt „Metahumans“, die wir von realen Menschen nicht mehr unterscheiden können. Tools wie „voice.ai“ erzeugen menschliche Stimmen nach beliebigen Vorlagen. Mit diesen werden die sprechenden Metahumans synchronisiert, so dass sie sich uns lebensecht zuwenden.
Kaum von realen Menschen zu unterscheiden:
Die Kunstfigur „Freddy“ aus einem Projekt für den DBS (Deutscher Behindertensportverband e. V.)
Dieses Beispiel stammt aus laufenden Projekten, die aufgrund ihres Volumens bisher mit Stock-Bildern hätten auskommen müssen – nun aber in der gleichen finanziellen Größenordnung den Einsatz von lebensechten Avataren ermöglichen.
Auf Produzentenseite werden also neue Dimensionen der Darstellungs- und auch der Gestaltungsqualität erschlossen. Getrieben wird dies auch durch den immer virtuoseren Einsatz der neuen Tools durch die User. Der „Prosumer“ – also der produzierende Konsument – hat in Sachen von Bild- und Bewegtbildmedien die „altgedienten“ Profis mit Hilfe der KI in vielen Fällen schon erreicht – mitunter übertroffen. Dies dokumentieren plakative Bildschöpfungen und „Reels“ die zu dutzenden jede Stunde neu auf Instagram geladen werden. Dabei spielt eine völlig neue Kompetenz eine Rolle, die für den kreativen und produktiven Umgang mit den neuen Werkzeugen grundlegend ist – das sogenannte „Prompt Engineering“, also die gezielte Gestaltung sprachlicher Anweisungen an die KI, um Ergebnisse zu erzielen, die möglichst genau dem entsprechen, was konzeptionell geplant war.
An diesem letzten Punkt sind wir „getröstet“, denn hier kommt unsere Intelligenz und Kreativität in den Prozess zurück: Ohne unsere „Prompts“ kann die KI nichts erzeugen!
Die Maschine, die sich selbst füttert - das Perpetuum Mobile der KI-Innovation
Aber auch hier ist der nächste Schritt bereits denkbar (und vermutlich in den KI-Labors schon realisiert): Die KI-gestützte Generierung von KI-steuernden Prompts! Wenn wir gedanklich tief in diesen Zusammenhang hineinschauen, ist es, als ob wir in eine endlose Reihe von Spiegeln in Spiegeln sehen – beendet nur durch die Krümmung, die sich aus unserer menschlichen Perspektive ergibt. Am Ende steht also die unsichtbare Unendlichkeit dieser Entwicklung. Alles Unendliche wurde in allen Kulturen schon immer metaphysisch überhöht. Deshalb wird für den neuen KI-Kult (unausgesprochen) gelten: „AI is God!“
Die neuen Psalme wird sie selbst sich schreiben! Oder aber neue, nützliche „Prompts“ – wenn wir sie richtig „füttern“.