In 7 Minuten Sprachmodelle (LLMs) verstehen – Braucht Ihr Unternehmen KI?

Einleitung

Sprachmodelle und Künstliche Intelligenz sind Schlüsselelemente in der Evolution der Unternehmenswelt und spielen eine zunehmend zentrale Rolle in der Art und Weise, wie Firmen interagieren, kommunizieren und Innovationen vorantreiben. Mit ihrer Fähigkeit menschliche Sprache zu verstehen und logische Zusammenhänge zu finden, öffnen sie ein neues Kapitel in der digitalen Transformation von Prozessen.

Sprachmodelle, z.B. ChatGPT, werden oft auch als LLMs (Large Language Models) bezeichnet.

In diesem Artikel erkunden wir das Potenzial und die Funktionsweise dieser bahnbrechenden Technologien, um ein klares Bild ihres Wertes für Unternehmen zu vermitteln. Zusätzlich beschäftigen wir uns damit, wie man die Leistungsfähigkeit eines Sprachmodells bewerten kann.

Lesezeit: 7 Minuten.

Was sind Sprachmodelle

Nach weniger als sieben Jahren, seit bahnbrechenden Forschungsergebnissen im Bereich der künstlichen Intelligenz, haben sich Sprachmodelle wie ChatGPT und Google Gemini fest in unserem (Berufs-) Alltag etabliert. Ein besonders beeindruckendes Merkmal von LLMs ist nicht allein die Fähigkeit, menschliche Sprache zu begreifen, sondern ebenso die Art und Weise, wie Sie scheinbar logische Zusammenhänge und Verknüpfungen aus Ihren Trainingsdaten ziehen können.

Diese Modelle funktionieren auf der Basis von sogenannten “Tokens”, die Wörter oder Wortteile repräsentieren. Die Kernfunktionalität eines solchen Modells besteht darin, den nächst wahrscheinlichen Token in einem Kontext vorherzusagen.

Wie würden Sie den folgenden Satz weiterführen: Das Haus ist …? Groß? Alt? Möglich – aber auf keinen Fall würden Ihnen Worte, wie wütend oder introvertiert einfallen. Genau so würde auch ChatGPT groß oder alt vorhersagen, da diese Wörter in diesem Kontext, eine sehr hohe Wahrscheinlichkeit besitzen.

llm_explanation

Die Wahrscheinlichkeiten der einzelnen Wörter in einem lernt das Sprachmodell beim Training.

Im Hintergrund speichert das Modell Verbindungen zwischen diesen Wörtern im Bezug auf verschiedene Sätze und Wortkonstellationen, um eine passende Vorhersage zu treffen. Technisch ist dies durch eine Knotenstruktur implementiert, ähnlich den neuronalen Netzwerken im menschlichen Gehirn.

Wichtig hierbei ist, diese Fähigkeit, logische Verbindungen herzustellen, wird umso ausgeprägter, je größer das Modell ist. Größere Modelle können eine weitreichendere Vielfalt an Zusammenhängen erfassen und sind daher in der Lage, komplexere Aufgaben zu bewältigen. Deshalb ist oft die Rede von Large Lanugage Models. Dies leitet über zu der Frage, wie genau Sprachmodelle lernen, und warum die Größe des Modells eine entscheidende Rolle für seine Leistungsfähigkeit spielt.

Wie lernen Sprachmodelle – Muss das so teuer sein?

Der Lernprozess von Sprachmodellen ist zweigeteilt: das anfängliche Training und das nachfolgende Finetuning.

Das Training, bei dem das Modell mit riesigen Textmengen gefüttert wird, ist in der Tat ressourcen- und kostenintensiv. Es erfordert erhebliche Rechenleistung und Expertise. Dabei sind oft mehrere NVIDIA Server GPUs beschäftigt.

Jedoch, einmal trainiert, ist das Finetuning – die Anpassung des Modells an spezifische Anwendungsfälle – wesentlich kostengünstiger. Dies eröffnet Unternehmen die Möglichkeit, diese Technologie zu nutzen, ohne in die anfänglichen, hohen Kosten für das Training investieren zu müssen. Veranschaulichen kann man sich das folgendermaßen: Im anfänglichen Training lernt das Sprachmodell die deutsche Sprache, versteht z.B. dass ein Elefant größer als eine Maus ist und schließt somit sein “allgemeines Abitur ab”. Im anschließendem Finetuning, das “Studium” des Sprachmodells, werden spezifische Daten trainiert und die KI wird auf eine spezielle Anwendung abgerichtet – Höhere Mathematik wird auch erst geleert, nachdem das 1×1 sitzt.

Nach dem Finetuning kann die Leistungsfähigkeit von Sprachmodellen durch den Einsatz von Retrieval-Augmented Generation (RAG) weiter gesteigert werden. Einfach ausgedrückt kombiniert RAG die Fähigkeiten eines trainierten Sprachmodells mit der Fähigkeit, aus einer Datenbank oder einem Wissenskorpus Informationen zu holen und zu integrieren. Dies bedeutet, dass das Modell nicht nur auf das angewiesen ist, was es während des Trainings gelernt hat, sondern auch in der Lage ist, aktuelle oder spezifische Informationen zu einem Thema abzurufen. Es ist, als würde das Modell während des Gesprächs blitzschnell in einer riesigen digitalen Bibliothek nachschlagen, um seine Antworten zu verbessern oder zu präzisieren.

Betrieb im Unternehmen

Für den effizienten Betrieb eines maßgeschneiderten Large Language Models (LLM) im Unternehmensumfeld sind spezielle Hardwareanforderungen zu beachten. Obwohl der Betrieb eines LLMs nicht so rechenintensiv wie das Training ist, werden dennoch leistungsfähige Server mit hochwertigen Grafikkarten benötigt. Ein kritischer Faktor ist dabei der verfügbare VRAM (Video Random Access Memory), der groß genug sein muss, um das gesamte Modell zu laden. Dies stellt sicher, dass das LLM effizient und ohne Verzögerungen eingesetzt werden kann.

Der Einsatz eigener Sprachmodelle ermöglicht es Unternehmen, spezifisches Wissen und Fachterminologie in ihren KI-Anwendungen zu integrieren. Dies ist besonders wertvoll für den Aufbau von unternehmensspezifischen Chatbots oder Suchmaschinen, die mit geringem Aufwand durch Feintuning an die speziellen Anforderungen und das Fachwissen des Unternehmens angepasst werden können.

Aus wirtschaftlicher Sicht ist zu beachten, dass der Betrieb und das Feintuning eigener Sprachmodelle mit Kosten verbunden sind. Insbesondere der Bedarf an Grafikkarten mit ausreichendem VRAM kann eine signifikante Investition darstellen, da diese Komponenten aufgrund ihrer hohen Leistungsfähigkeit und Nachfrage oft teuer sind. Unternehmen müssen daher die Kosten-Nutzen-Relation sorgfältig abwägen und entscheiden, ob die Investition in die eigene Infrastruktur und die damit verbundene Datenhoheit und Anpassungsfähigkeit den finanziellen Aufwand rechtfertigt.

Services wie Microsoft Copilot und Azure bieten zwar komfortable Lösungen für die Integration von KI in Unternehmensprozesse, setzen jedoch voraus, dass Unternehmen bereit sind, ihre Daten diesen externen Anbietern zur Verfügung zu stellen. Für Organisationen, die großen Wert auf Datenschutz und Datenhoheit legen, ist die Entwicklung eigener Sprachmodelle eine attraktive Alternative, die es ermöglicht, die Vorteile der Künstlichen Intelligenz zu nutzen, während gleichzeitig die Kontrolle über die eigenen Daten und Ressourcen gewahrt wird.

Wie gut ist das Sprachmodell?

Die Leistungsfähigkeit eines Sprachmodells hängt vor allem von der Größe ab. Das bedeutet, je mehr Logik bei den Fragen gefordert ist, desto mächtiger muss das Modell sein. Da größere LLMs einfach mehr Kapazität besitzen Zusammenhänge zu bilden.

Das lässt sich sehr einfach durch den Gänseblümchen-Test  (Diesen Test haben wir uns selbst ausgedacht) veranschaulichen: Man fragt ein Sprachmodell nach einem Gedicht über Gänseblümchen. Und kann anhand der Wortwahl und des Inhalts sehr leicht feststellen, wie gut das Verständnis von Sprache ist und wie gut logische Verbindungen trainiert sind.

Die Interpretation von OpenAIs Powerhouse GPT4 zum Thema “Gänseblümchen” ist links aufgelistet. Im Gegensatz dazu ein Gedicht eines deutlich kleineren Sprachmodells auf der rechten Seite:

GPT4 German Mistral
GPT4 ist in der Lage zu reimen. Das Gedicht ist flüssiger und beinhaltet viele Metaphern und bildliche Sprache Das zweite Gedicht wirkt deutlich generischer, außerdem haben Gänseblümchen keine “blau-weißen Blumenköpfe”. Reime finden sich auch nur sehr selten.

Natürlich kann man die Leistungsfähigkeit eines Sprachmodells nicht ausschließlich anhand eines Gedichtes über Gänseblümchen beurteilen. Jedoch bietet dieses Beispiel einen anschaulichen Einblick in die Fähigkeiten des Modells, komplexe sprachliche Zusammenhänge zu verstehen und kreativ umzusetzen. Größere Modelle wie GPT-4 zeigen oft eine tiefere Verständnisfähigkeit und größere Kreativität in ihrer Sprachverwendung. Kleinere Modelle hingegen neigen dazu, generische und weniger kohärente Texte zu produzieren. Die Größe des Modells spielt also eine entscheidende Rolle für seine Fähigkeit, tiefe und logisch zusammenhängende sprachliche Verbindungen herzustellen.

Tipps:

Zum Spielen mit Large Language Modellen neben ChatGPT können wir zum Beispiel folgendes Tool empfehlen: https://gpt4all.io/index.html

Eine sehr gute Ressource für AI Modelle alles Art ist natürlich https://huggingface.co/

Ausblick:

Demnächst bei uns im Blog: Stable Diffusion auf Apple Geräten. Wir erklären wie Bilderzeugung per KI funktioniert und welche Tools auf einem M Prozessor performant laufen.

Haben sie Interesse an einem Projekt mit einer firmenspezifischen, KI basierten Suchmaschine, bei der die Daten im Haus bleiben: Sprechen sie uns an. Wir haben gute Ergebnisse mit LLMs überschaubarer Größe in Verbindung mit dem RAG Ansatz.