CAIDAS trainiert erstes rein deutsches großes Sprachmodell

19.11.2024

Meilenstein für deutschsprachige Large Language Models: An der Universität Würzburg wurde das erste rein deutsche große Sprachmodell trainiert. Entstanden ist es am Center for Artificial Intelligence and Data Science (CAIDAS).

Große Sprachmodelle – Large Language Models – sind künstliche Intelligenzen, die darauf trainiert wurden, natürlichsprachliche Texte zu verstehen und zu generieren. (Bild: wipawan / AdobeStock)

Die Julius-Maximilians-Universität Würzburg (JMU) setzt einen neuen Meilenstein für deutschsprachige Large Language Models (LLMs). Gleich zwei neue Modelle wurden erfolgreich trainiert: das LLäMmlein 120M und das leistungsstärkere LLäMmlein 1B mit über einer Milliarde Parametern. Ein Novum stellt dar, dass dies ausschließlich auf Deutsch geschah.

Am 15. November 2024 werden die Modelle der Öffentlichkeit zugänglich gemacht.

Deutsches Training der Sprachmodelle

Bisher wurden viele große Sprachmodelle hauptsächlich auf englischen Datensätzen trainiert. Genau hier hat der Lehrstuhl für Data Science am CAIDAS der Universität Würzburg unter der Leitung von Professor Andreas Hotho angesetzt: „Mit LLäMmlein haben wir Modelle geschaffen, die ausschließlich auf deutschsprachigen Daten trainiert wurden. Dies setzt nicht nur den Fokus auf die deutsche Sprachverarbeitung und eröffnet neue Möglichkeiten für Anwendungen, die speziell auf die deutsche Sprache zugeschnitten sind, sondern auch die gezielte Untersuchung von deutschen Sprachmodellen.“

Ein transparenter und deutscher Datensatz

Um die Modelle zu trainieren, bereinigten und bereiteten die Forschenden den bestehenden, mehrsprachigen RedPajama-Datensatz speziell für das Deutsche auf. Dabei zerlegten sie die Texte in kleinste sinnvolle Einheiten, sogenannte „Tokens“ – das können einzelne Wörter oder Wortteile sein. Am Ende entstand ein Datensatz mit drei Billionen solcher deutscher „Tokens“. Zudem veröffentlichen sie ein spezialisiertes Programm, einen sogenannten „Tokenizer“, der die deutschen Texte auf eine Weise in diese Einheiten zerlegt, die besonders gut zu den Besonderheiten der deutschen Sprache passt.

Die Veröffentlichung des Datensatzes, sowie mehrerer Modellcheckpoints aus der Trainingsphase ermöglichen es Forschenden, die Lerndynamik der Modelle besser zu verstehen und weiterzuentwickeln.

Um den Fortschritt des Trainings zu überwachen sowie das finale Ergebnis zu evaluieren, wurde der selbst entwickelte Benchmark “SuperGLEBer” mit 29 Aufgaben zur Evaluierung von deutschen LLMs genutzt.

Vielfältige Modelle für unterschiedliche Anwendungen

„Wir präsentieren zwei Modelle unterschiedlicher Größe: LLäMmlein 120M und 1B. Diese bieten einen Einblick, wie die Modellgröße die Leistungsfähigkeit beeinflusst. Zusätzlich stellen wir spezielle Chat-Varianten zur Verfügung, die für interaktive Anwendungen optimiert sind“, erklärt Andreas Hotho.

Durch die unterschiedlichen Modelle können Entwickler und Forschende das passende Modell für ihre spezifischen Anforderungen auswählen. So existiert bereits eine Preview auf eine bayrische Variante des Sprachmodells.

Ausblick und Veröffentlichung

Das Projekt ist der Auftakt für die Entwicklung noch größerer Modelle. Die umfangreichen Berechnungen wurden bisher am NHR@FAU Cluster in Erlangen durchgeführt und erforderten 50.000 Rechenstunden auf A100-GPUs mit 80GB Speicher für das 1B-Modell. Das Training dauerte rund 5 Wochen auf 64 GPUs. Das kleinere Modell wurde auf dem neuen Uni-eigenen JuliaV2-Cluster gerechnet und brauchte dort etwa 10.000 L40-GPU Stunden.

Der Lehrstuhl Data Science ist Teil des CAIDAS, dem Zentrum für Artificial Intelligence und Data Science. Das Zentrum wird durch die bayerische High Tech Agenda unterstützt, die diese Forschung erst ermöglicht hat.