Skip to content

GPT, BERT & Co.: 7 Top-LLMs in 7 Minuten durchblicken

  • AI

Viele Abläufe im Beruf und Alltag basieren auf grossen Sprachmodellen, die auf Milliarden von Dokumenten trainiert wurden. Diese KI-Systeme verstehen Texte, liefern Antworten und erzeugen menschenähnliche Formulierungen. Trotz ähnlicher Grundprinzipien unterscheiden sie sich in Architektur, Parameterzahl und Trainingsmethoden, was ihre Stärken in verschiedenen Aufgaben beeinflusst. DeepSeek etwa überzeugt bei logischen Schlussfolgerungen, Claude glänzt im Programmieren und ChatGPT liefert kreative Texte. Im Folgenden werden sieben prominente Modellfamilien kurz vorgestellt und zentrale Eigenschaften erklärt.

BERT
2018 führte Google BERT ein und setzte damit einen Meilenstein im Bereich Natural Language Understanding. BERT arbeitet mit einem bidirektionalen Transformer-Encoder, der bei der Verarbeitung von Text sowohl den linken als auch den rechten Kontext berücksichtigt. Das Pre-Training erfolgt über Masked Language Modeling—hier werden zufällig ausgewählte Wörter maskiert und im Anschluss vorhergesagt—und Next Sentence Prediction, bei dem beurteilt wird, ob zwei Sätze zusammengehören. Google bietet zwei Varianten an: BERT Base mit zwölf Schichten und 110 Mio. Parametern sowie BERT Large mit 24 Schichten und 340 Mio. Parametern. Spezielle Tokens wie [CLS] signalisieren den Anfang eines Satzes, [SEP] trennt Teilsätze. Nach dem Feintuning eignet sich BERT für Sentiment-Analysen, Named Entity Recognition und Frage-Antwort-Systeme (beispielsweise SQuAD). Mit seiner Fähigkeit, den vollen Semantikraum von Sätzen zu erfassen, war BERT das erste Modell dieser Art.

GPT-Familie
Die Entwicklung begann 2018 mit GPT-1 (117 Mio. Parameter) von OpenAI. 2019 folgte GPT-2 mit 1,5 Mrd. Parametern, 2020 erschien GPT-3 mit 175 Mrd. Parametern. Im März 2023 stellte OpenAI GPT-4 vor, das dank multimodaler Trainingsdaten Texte und Bilder verarbeitet. Im Mai 2024 kam GPT-4o auf den Markt, das über erweiterte multimodale Fähigkeiten verfügt. Alle Versionen nutzen eine Decoder-only-Architektur und trainieren auf dem Next-Token-Prediction-Ansatz: Schritt für Schritt wird das jeweils nächste Wort auf Basis aller vorherigen Tokens vorhergesagt. Nach dem unüberwachten Vortraining lassen sie sich per Few-Shot-Lernen oder Feintuning auf spezialisierte Aufgaben einstellen. Die stetig wachsenden Modelle setzten den Standard für das Paradigma «Pre-train & Prompt/Fine-tune». Da sie proprietär sind, erfolgt der Zugriff meist über API-Schnittstellen; viele Details ihrer Architektur bleiben vertraulich.

Paper Link (GPT-4): https://arxiv.org/pdf/2303.08774

LLaMA
Meta AI veröffentlichte im Februar 2023 LLaMA als Open-Source-Reihe autoregressiver Transformer-Decoder. Die Palette reicht von 7 Mrd. bis 70 Mrd. Parametern; im April 2025 erschien LLaMA 4. Während das Grundprinzip dem von GPT gleicht, integrieren die Modelle Optimierungen wie SwiGLU-Aktivierungen anstelle von GeLU, rotierende Positionscodierungen (RoPE) und RMSNorm statt Layer Norm. Trotz relativ niedriger Parameterzahlen erreichte das 13-Mrd.-Modell bessere Resultate als GPT-3 mit 175 Mrd. Parametern, und die 65-Mrd.-Variante spielte auf Augenhöhe mit Google PaLM und DeepMinds Chinchilla. Meta veröffentlichte die Gewichte unter Forschungslizenz, was zu breit gefächerter Community-Nutzung führte. LLaMA zeigte, dass effizientes Training und offener Zugriff Hand in Hand gehen können.

LLaMA 4 Blog Link: https://ai.meta.com/blog/llama-4-multimodal-intelligence/
Paper Link (LLaMA 3): https://arxiv.org/abs/2407.21783

PaLM
Google Research stellte 2022 PaLM (Pathways Language Model) vor. Die erste Version umfasste 540 Mrd. Parameter als Decoder-only-Transformer und profitierte vom Pathways-Framework. Für das Training kamen rund 780 Mrd. Token aus Büchern, Wikipedia, Nachrichten, Webseiten, GitHub-Code und Social-Media-Beiträgen zum Einsatz. Tausende TPU-v4-Chips sorgten für hohe Parallelität. Multi-Query-Attention reduzierte den Speicherbedarf bei der Inferenz. Dank der breiten Datengrundlage zeigte PaLM herausragende Few-Shot-Fähigkeiten. Im Mai 2023 folgte PaLM 2 mit verbesserter Mehrsprachigkeit, gesteigerter Schliessleistung und optimierter Code-Erzeugung; es treibt Dienste wie Google Bard und Workspace AI an.

PaLM 2 Technical Report: https://arxiv.org/abs/2305.10403
Paper Link (PaLM): https://arxiv.org/pdf/2204.02311

Gemini
Ende 2023 lancierte Google DeepMind gemeinsam mit Google Research die Transformer-basierte Modellreihe Gemini. Entwickelt als nativ multimodales System, verarbeitet es simultan Text, Bilder, Audio, Video und Code. Ein herausragendes Merkmal sind ultralange Kontextfenster, die Eingaben über Millionen Token hinweg erfassen. Die Version Gemini 1.5 («Pro») setzt auf Mixture-of-Experts (MoE): Hunderte Subnetzwerke stehen bereit, doch pro Anfrage werden nur wenige aktiv geschaltet. So steigt die Kapazität ohne linearen Anstieg des Rechenaufwands. Die im März 2025 erschienene Generation Gemini 2.5 verbesserte das «Denkvermögen» weiter. Im Juni 2025 folgten stabile Versionen Gemini 2.5 Flash und Pro sowie Flash-Lite, eine besonders schnelle und preisgünstige Variante mit einem Kontextfenster bis zu einer Million Token. Variationen in den Grössen Ultra, Pro und Nano ermöglichen den Einsatz in Rechenzentren und auf mobilen Endgeräten. Standardmässig sind Tool-Integrationen wie Websuche und Codeausführung integriert. Multimodales Vortraining in Kombination mit sparsamer Expertenarchitektur macht Gemini zur vielseitigen Basis für KI-Anwendungen.

Paper Link (Gemini 1.5): https://arxiv.org/abs/2403.05530
Paper Link (Gemini): https://arxiv.org/abs/2312.11805

Mistral
Im September 2023 veröffentlichte das französische Startup Mistral mit Mistral 7B sein erstes LLM. Der autoregressive Transformer-Decoder verfügt über 7,3 Mrd. Parameter und ist für schnelle Inferenz optimiert: Grouped-Query Attention (GQA) beschleunigt die Selbstaufmerksamkeit, Sliding-Window-Attention ermöglicht längere Kontexte. In Benchmarks schlug Mistral 7B Meta’s LLaMA 2 (13 Mrd. Parameter) und war mit deutlich grösseren Modellen konkurrenzfähig. Unter Apache-2.0-Lizenz frei verfügbar, motivierte es umfangreiche Experimente. Im November 2023 folgte Mixtral 8×7B, ein sparsames MoE-Modell mit acht Experten pro Schicht, das GPT-3.5 und LLaMA 2 70B in Mathematik, Programmierung und Mehrsprachenaufgaben übertraf. Im Mai 2025 brachte Mistral Medium 3, eine proprietäre Enterprise-Lösung auf den Markt. Medium 3 erzielt über 90 Prozent der Benchmark-Leistung von Top-Systemen wie Claude 3.7 Sonnet, reduziert Kosten pro Token von rund 3,00 USD auf etwa 0,40 USD und beherrscht multimodale Eingaben. Die Auslieferung über API oder On-Premises auf vier GPUs rief Kritik hervor, da sich Mistral vom ursprünglichen Open-Source-Kurs entfernte.

Paper Link (Mistral 7B): https://arxiv.org/abs/2310.06825

Magistral
Im Juni 2025 stellte Mistral mit Magistral sein erstes Modell vor, das speziell auf logisches und mathematisches Schliessen ausgelegt ist. Die kleinere Variante steht unter Apache-2.0-Lizenz, Magistral Medium ist Unternehmen vorbehalten. Bei der AIME 2024 erreichte Magistral Medium 73,6 Prozent, die kleine Version 70,7 Prozent und demonstrierte hohe Zuverlässigkeit in mehrsprachigen Mathematik- und Logikaufgaben.

Leave a Reply

Your email address will not be published. Required fields are marked *