Fortschrittliche Technologien als Notwendigkeit
In einem dynamischen Unternehmen wie dmTECH ist die Fähigkeit zur schnellen Informationsgewinnung und -verarbeitung von entscheidender Bedeutung. Im digitalen Zeitalter, in dem Daten und Informationen zu einem wertvollen Gut geworden sind, sind fortschrittliche Technologien wie große Sprachmodelle nicht mehr nur Luxus, sondern Notwendigkeit.
Mit großen Sprachmodellen eröffnen sich zahlreiche Möglichkeiten, Arbeitsprozesse zu optimieren und unsere Dienstleistungen zu verbessern.
Ob es darum geht, ausführliche Produktbeschreibungen zu generieren, lange Texte in prägnante Zusammenfassungen zu verwandeln oder Schlüsselwörter in Dokumentenmengen zu suchen – große Sprachmodelle bieten eine Vielzahl von Anwendungen, die unsere tägliche Arbeit erleichtern können.
Large language models leicht erklärt
Hast Du Dich schon einmal gefragt, wie ChatGPT funktioniert?
GPT steht für „Generative Pretrained Transformer“. Was sich dahinter verbirgt ist eine besondere Art, wie KI-Software aufgebaut werden kann.
Oder, um es noch allgemeiner zu fassen, wie große Sprachmodelle - auch „large language models“ genannt - ihre Arbeit verrichten?
Es ist faszinierend, wie diese Modelle in der Lage sind, sinnvolle und kohärente Texte zu generieren.
Folgender Text wurde von GPT-3.5 generiert. Die Anfrage war, große Sprachmodelle für ein fünfjähriges Kind zu erklären:
Stell Dir vor, Du hast einen sehr, sehr großen und klugen Papagei. Dieser Papagei ist besonders, weil er nicht nur Dinge nachplappert, die er hört, sondern auch neue Dinge sagt, die er vorher nie gehört hat.
Wie macht er das? Nun, dieser Papagei hat eine Menge Bücher, Geschichten und Informationen gelesen (oder eher, wir haben diese Dinge in seinen Kopf gesteckt). Dadurch hat er gelernt, wie Worte und Sätze zusammenpassen. So kann er jetzt neue Sätze bilden, die sinnvoll klingen, als ob er wirklich spricht!
Aber auch wenn es so aussieht, als ob der Papagei wirklich viel weiß und versteht, ist das nicht ganz richtig. Der Papagei weiß eigentlich nicht, was die Worte wirklich bedeuten. Er kann nur gute Vermutungen anstellen, weil er so viele Sätze und Worte gesehen hat.
Also, wenn Du mit dem Papagei sprichst, denk daran, dass er immer noch nur ein Papagei ist. Er kann nicht über Dinge sprechen, die er nicht in seinen Büchern gelesen hat, und er versteht die Worte nicht wirklich, die er sagt. Aber er kann immer noch eine Menge Spaß machen und uns dabei helfen, neue Dinge zu lernen!
So funktionieren große Sprachmodelle
Um eine Vorstellung davon zu bekommen, wie große Sprachmodelle tatsächlich funktionieren, werden wir unser eigenes kleines Modell erstellen.
Der folgende Text ist ein Teil der ersten Strophe des Gedichtes „Der Erlkönig“ von Johann Wolfgang von Goethe:
er hat den Knaben wohl in dem Arm
er faßt ihn sicher
er hält ihn warm
Wir stellen uns diesen Text als eine Zeitreihe vor. Damit ist gemeint, dass das erste Wort zum zweiten führt, das zweite zum dritten, und so weiter. Mit anderen Worten: Ein Wort in dem Satz hängt nur von dem vorherigen ab:
Das Wort „er“ kommt dreimal vor. Wenn wir diese drei „er“ zusammenfassen, erhalten wir einen Graphen:
Wir können den ursprünglichen Text wieder herstellen, wenn wir bei „er“ anfangen, dann dem ersten Pfeil, der nach rechts oben zeigt, folgen zu dem Satz „hat den Knaben wohl in dem Arm“, zurück zu „er“ und dann dem zweiten Pfeil von oben, der nach rechts zeigt, folgen zu „faßt ihn sicher“, und so weiter.
Ein weiteres Wort, das sich wiederholt, ist „ihn“. Also können wir auch dieses Wort zusammenfassen:
Wenn wir den einzelnen Kombinationsmöglichkeiten nun Wahrscheinlichkeiten zuordnen, werden die einzelnen Wörter zu einem Sprachmodell:
Woher kommen die Wahrscheinlichkeiten?
Ausgehend von dem Wort „ihn“ gibt es zwei Möglichkeiten:
„sicher“
„warm“
Die Wahrscheinlichkeit, dass das Wort „sicher“ gewählt wird, ist ½ bzw. 0,5. D. h. eine Möglichkeit von zwei. Analog für „warm“.
Ausgehend von dem Wort „er“ gibt es drei Möglichkeiten:
„hat den Knaben wohl in dem Arm“
„faßt“
„hält“
Die Wahrscheinlichkeit, dass das Wort „hält“ gewählt wird, liegt bei 1/3 bzw. 0,33. D. h. eine Möglichkeit von drei. Analog für „hat den Knaben wohl in dem Arm“ und „faßt“.
Nun können wir unser Modell verwenden, um neue Kombinationen aus bisherigen Phrasen zusammenzusetzen:
„er faßt ihn sicher er hat den Knaben wohl in dem Arm“
Oder wir können hieraus einen neuen Text generieren:
„ihn sicher er hält ihn warm“
Hier sind weitere mögliche Kombinationen von Phrasen und Sätzen, die wir mit dem obigen Sprachmodell erstellen können:
"Er hat den Knaben wohl in dem Arm"
"Er faßt ihn“
"Ihn sicher"
"Er hält ihn"
"Ihn warm"
"Er hat den Knaben wohl in dem Arm, er faßt ihn"
"Er faßt ihn sicher"
"Er hat den Knaben wohl in dem Arm, er faßt ihn sicher"
"Er hält ihn warm"
"Er hat den Knaben wohl in dem Arm, er hält ihn warm"
"Er faßt ihn sicher, er hält ihn"
"Er hat den Knaben wohl in dem Arm, er faßt ihn sicher, er hält ihn"
"Er faßt ihn sicher, er hält ihn warm“
"Er hat den Knaben wohl in dem Arm, er faßt ihn sicher, er hält ihn warm"
Natürlich ergeben nicht alle Phrasen Sinn. Das Modell ist sehr einfach gehalten, da das aktuelle Wort nur abhängig von dem vorherigen ist. Außerdem umfasst es einen kleinen Wortschatz. Trotzdem ist es beeindruckend, dass wir so viele Phrasen aus nur einem Satz generieren können!
Weiterentwicklung der Sprachmodelle
Wie können wir das Sprachmodell verbessern? Im Wesentlichen gibt es zwei Probleme zu lösen:
1. Aufmerksamkeitsmechanismus
Stell Dir vor, Du liest einen Satz und möchtest jedes Wort im Kontext des gesamten Satzes verstehen. Einige Wörter sind wichtiger als andere, um die Bedeutung eines bestimmten Wortes zu verstehen.
Der so genannte „Self-Attention Mechanismus“ im Modell hilft genau dabei. Für jedes Wort schaut er auf alle anderen Wörter im Satz und entscheidet, welchen Wörtern er mehr Aufmerksamkeit schenken sollte als anderen. Das macht er mit einer Art „Bewertungssystem“. Nachdem er diese Bewertungen vorgenommen hat, kombiniert er die Informationen von allen Wörtern basierend auf diesen Bewertungen, um eine bessere Bedeutung für das aktuelle Wort zu bekommen. Das Gute daran ist, dass er dies für alle Wörter im Satz gleichzeitig machen kann, wodurch es sehr schnell und effizient wird.
Insgesamt hilft dieser Mechanismus dem Modell, den Satz besser zu verstehen, indem er die Beziehungen zwischen den Wörtern berücksichtigt.
2. Wortschatz
Wie viele Daten bzw. Texte sind notwendig, um ein großes Sprachmodell zu trainieren?
Im Grunde alle Texte. Die heutigen Modelle kennen den größten Teil des Internets und vieler öffentlich verfügbarer Bücher. Das sind tausende Billiarden von Wörtern. Das Training dauert also sehr lange.
Angenommen, wir würden GPT-3 auf einem Grafikprozessor (GPU) trainieren, würde das ca. 355 Jahre dauern. Die Sprachmodelle sind jedoch hochgradig parallelisierbar, sodass sie innerhalb eines Monats mit einigen tausend GPUs trainiert werden können.
Begrenzungen großer Sprachmodelle
Große Sprachmodelle sind beeindruckend, jedoch bei weitem nicht perfekt. Einige Limitierungen sind:
Datenbias: Die Modelle spiegeln die Daten wider, mit denen sie trainiert wurden. Wenn diese Daten Vorurteile oder fehlerhafte Informationen enthalten, kann auch das Modell diese reflektieren.
Halluzination: Die Modelle können Informationen hinzufügen oder einfügen, die nicht aus der Eingabe abgeleitet oder davon unterstützt werden. Die Modelle erfinden also Antworten.
Fehlende aktuelle Informationen: Modelle wie GPT-4 haben einen bestimmten Zeitpunkt, an dem ihr Wissen endet. Ereignisse oder Entwicklungen nach diesem Zeitpunkt kennen sie nicht.
Rechenaufwand: Das Training großer Modelle benötigt viele Ressourcen, was nicht nur kostspielig ist, sondern auch Auswirkungen auf die Umwelt hat.
Generalisierung: Manchmal kann das Modell Schwierigkeiten haben, nuancierte Anfragen korrekt zu beantworten oder zwischen verschiedenen Kontexten zu unterscheiden.
Keine wirkliche Intelligenz: Trotz ihrer beeindruckenden Fähigkeiten besitzen solche Modelle keine echte Intelligenz oder ein Bewusstsein. Sie generieren Antworten basierend auf Mustern, die sie in den Trainingsdaten gelernt haben.
Die Fortschritte in der Entwicklung von Sprachmodellen sind beeindruckend und öffnen die Türen zu einer Fülle von Möglichkeiten. Trotz ihrer Limitierungen haben sie das Potenzial, viele Aspekte unseres Lebens zu revolutionieren. Mit dem richtigen Verständnis und einem verantwortungsbewussten Einsatz können wir die Vorteile dieser Technologien voll ausschöpfen und eine positive Zukunft gestalten.