WhatsApp Anfrage starten

Workstation für lokale KI & LLMs.

Du willst KI-Modelle auf deinem eigenen Rechner laufen lassen — ohne Cloud, ohne Abo, ohne dass deine Daten das Haus verlassen? Dann gelten andere Bauregeln als bei jedem normalen PC. Hier erfährst du, worauf es wirklich ankommt.

01Das Problem

„Warum stürzt meine KI bei großen Modellen ab?"

Das typische Erlebnis: Ein kleines Modell läuft noch irgendwie, aber sobald du ein größeres lädst, bricht alles zusammen — Fehlermeldung, eingefrorenes System oder Antworten im Schneckentempo. Die Reflex-Diagnose lautet dann oft „der Prozessor ist zu schwach". Sie ist fast immer falsch.

Bei lokaler KI ist nicht die CPU der Engpass, sondern die Grafikkarte — genauer: ihr Videospeicher (VRAM). Er entscheidet nicht, wie schnell ein Modell läuft, sondern ob es überhaupt läuft.

FIG. 01 — Der eine Grund

VRAM ist der Türsteher: Er entscheidet, welche Modellgröße überhaupt reinkommt.

Ein KI-Modell muss beim Ausführen komplett im Videospeicher der Grafikkarte liegen — wie ein Werkstück, das auf die Werkbank passen muss, bevor du daran arbeiten kannst. Passt es nicht, lagert die Software Teile in den normalen Arbeitsspeicher aus. Der ist aber über den PCIe-Bus um ein Vielfaches langsamer angebunden — aus flüssigen Antworten werden Sekunden pro Wort. Deshalb wird eine KI-Workstation von der Grafikkarte aus geplant, nicht vom Prozessor.

Merksatz: Erst muss das Modell passen — dann reden wir über Geschwindigkeit.

Die VRAM-Leiter: welche Modellgröße welchen Speicher braucht

Als Orientierung für komprimierte (quantisierte) Modelle — die Stufen, in denen geplant wird:

6–8 GB7B-Klasse. Der Einstieg: Assistenz, Textarbeit, Experimente — läuft flüssig auf guten Gaming-Karten.
10–12 GB13B-Klasse. Spürbar mehr Tiefe bei Antworten und Code — der Sweet Spot vieler Einsteiger-Workstations.
16–24 GB30B-Klasse. Ernsthafte lokale Arbeit: längere Kontexte, bessere Ergebnisse — hier beginnen die echten Arbeitsmaschinen.
48 GB+70B-Klasse und größer. Profi-Karten oder Multi-GPU — ein Fall für genaue Planung von Netzteil, Kühlung und Gehäuse.

Was das für den Bau bedeutet

KI-Last ist anders als Gaming-Last: Sie hält die Grafikkarte nicht sekundenweise, sondern stunden- oder tagelang unter Volllast. Ein Build, der dafür gemacht ist, unterscheidet sich an vier Stellen von einem Rechner aus dem Elektromarkt:

Grafikkarte / VRAMZuerst dimensioniert. Die Zielgröße deiner Modelle bestimmt die Karte — alles andere ordnet sich unter. Auch die Speicherbandbreite zählt: Sie bestimmt, wie schnell die Antworten kommen.
KühlungFür Dauerlast, nicht für Spitzen. KI hält die Karte lange auf Temperatur. Gehäuse-Airflow und Kühler werden so gewählt, dass nach Stunden nichts drosselt.
NetzteilMit echtem Puffer. Moderne Karten ziehen viel — und das in Lastspitzen. Ein Qualitätsnetzteil mit Reserve ist hier kein Luxus, sondern Stabilität.
RAM & SSDGroßzügig, aber zweite Reihe. Genug Arbeitsspeicher fürs Vorbereiten der Daten, schnelle NVMe-SSD fürs Laden der Modelle — wichtig, aber kein Ersatz für VRAM.

Lokal statt Cloud: wann sich das lohnt

Eine lokale KI-Workstation lohnt sich, wenn mindestens einer dieser Punkte auf dich zutrifft: Deine Daten dürfen das Haus nicht verlassen (Kundendaten, Verträge, Quellcode), du nutzt KI täglich und die Abo-Kosten summieren sich, oder du willst Modelle anpassen und experimentieren, ohne pro Anfrage zu zahlen. Für gelegentliches Ausprobieren bleibt die Cloud günstiger — und genau das sage ich dir auch, wenn es bei dir so ist.

Aus der Werkstatt: Die häufigste Fehlinvestition, die ich sehe: ein teurer Prozessor neben einer Grafikkarte mit zu wenig VRAM. Das Geld steckt an der falschen Stelle — der PC ist schnell in allem, außer in dem, wofür er gekauft wurde.

Verwandte Klassen: Wer neben KI auch rendert oder schneidet, sollte sich die Videoschnitt- & 3D-Workstation ansehen. Läuft der Rechner rund um die Uhr — etwa als KI-Server — gelten zusätzlich die Regeln vom Büro- & Server-PC.

FAQKI-Workstation

Fragen, die ich oft höre.

Wie viel VRAM brauche ich, um KI-Modelle lokal laufen zu lassen?
Als grobe Faustregel für komprimierte (quantisierte) Modelle: Ein 7B-Modell läuft ab etwa 6–8 GB VRAM komfortabel, ein 13B-Modell braucht eher 10–12 GB, und ab 16–24 GB öffnet sich die Klasse der 30B-Modelle. Sehr große Modelle (70B und mehr) sind ein Fall für 48 GB+ oder mehrere Karten. Entscheidend ist: Das Modell muss in den VRAM passen — sonst bricht die Geschwindigkeit massiv ein.
Reicht nicht einfach mehr normaler RAM statt teurem VRAM?
Nein. Wenn ein Modell nicht in den Grafikspeicher passt, lagert die Software Teile in den Arbeitsspeicher aus — und der ist über den PCIe-Bus um ein Vielfaches langsamer angebunden. Aus flüssigen Antworten werden dann Sekunden pro Wort. RAM ist wichtig fürs Drumherum (Daten vorbereiten, mehrere Programme), aber er ersetzt VRAM nicht.
Warum ist die CPU bei einer KI-Workstation zweitrangig?
Die eigentliche Rechenarbeit beim Ausführen von KI-Modellen passiert auf der Grafikkarte, die tausende Rechenkerne parallel nutzt. Die CPU füttert sie nur mit Daten. Ein moderner Mittelklasse-Prozessor reicht dafür meist aus — das gesparte Geld steckt man besser in VRAM, Kühlung und Netzteil.
Kann ich eine Gaming-Grafikkarte für KI nutzen?
Ja, in vielen Fällen sogar sehr gut — moderne Gaming-Karten mit viel VRAM sind für lokale KI das beste Preis-Leistungs-Verhältnis. Der Unterschied zur reinen Gaming-Konfiguration liegt im Drumherum: Kühlung und Netzteil müssen auf stundenlange Volllast ausgelegt sein, nicht auf Lastspitzen beim Spielen.
Was kostet eine KI-Workstation bei TeutoTech?
Das hängt fast vollständig davon ab, welche Modellgrößen du lokal betreiben willst — deshalb gibt es bei mir keinen Sofortpreis, sondern eine ehrliche Empfehlung mit Festpreis nach kurzer Anfrage über den Konfigurator. Du zahlst eine Anzahlung, ich beschaffe die Teile zum fixierten Preis, dann wird gebaut und getestet.

Sag mir, welche Modelle du fahren willst.

Ich sag dir ehrlich, was dafür nötig ist — und was nicht.

Anfrage starten