Question 1

Wie viel VRAM brauche ich, um KI-Modelle lokal laufen zu lassen?

Accepted Answer

Als grobe Faustregel für komprimierte (quantisierte) Modelle: Ein 7B-Modell läuft ab etwa 6–8 GB VRAM komfortabel, ein 13B-Modell braucht eher 10–12 GB, und ab 16–24 GB öffnet sich die Klasse der 30B-Modelle. Sehr große Modelle (70B und mehr) sind ein Fall für 48 GB+ oder mehrere Karten. Entscheidend ist: Das Modell muss in den VRAM passen — sonst bricht die Geschwindigkeit massiv ein.

Question 2

Reicht nicht einfach mehr normaler RAM statt teurem VRAM?

Accepted Answer

Nein. Wenn ein Modell nicht in den Grafikspeicher passt, lagert die Software Teile in den Arbeitsspeicher aus — und der ist über den PCIe-Bus um ein Vielfaches langsamer angebunden. Aus flüssigen Antworten werden dann Sekunden pro Wort. RAM ist wichtig fürs Drumherum (Daten vorbereiten, mehrere Programme), aber er ersetzt VRAM nicht.

Question 3

Warum ist die CPU bei einer KI-Workstation zweitrangig?

Accepted Answer

Die eigentliche Rechenarbeit beim Ausführen von KI-Modellen passiert auf der Grafikkarte, die tausende Rechenkerne parallel nutzt. Die CPU füttert sie nur mit Daten. Ein moderner Mittelklasse-Prozessor reicht dafür meist aus — das gesparte Geld steckt man besser in VRAM, Kühlung und Netzteil.

Question 4

Kann ich eine Gaming-Grafikkarte für KI nutzen?

Accepted Answer

Ja, in vielen Fällen sogar sehr gut — moderne Gaming-Karten mit viel VRAM sind für lokale KI das beste Preis-Leistungs-Verhältnis. Der Unterschied zur reinen Gaming-Konfiguration liegt im Drumherum: Kühlung und Netzteil müssen auf stundenlange Volllast ausgelegt sein, nicht auf Lastspitzen beim Spielen.

Question 5

Was kostet eine KI-Workstation bei TeutoTech?

Accepted Answer

Das hängt fast vollständig davon ab, welche Modellgrößen du lokal betreiben willst — deshalb gibt es bei mir keinen Sofortpreis, sondern eine ehrliche Empfehlung mit Festpreis nach kurzer Anfrage über den Konfigurator. Du zahlst eine Anzahlung, ich beschaffe die Teile zum fixierten Preis, dann wird gebaut und getestet.

Workstation für lokale KI & LLMs.

„Warum stürzt meine KI bei großen Modellen ab?"

VRAM ist der Türsteher: Er entscheidet, welche Modellgröße überhaupt reinkommt.

Die VRAM-Leiter: welche Modellgröße welchen Speicher braucht

Was das für den Bau bedeutet

Lokal statt Cloud: wann sich das lohnt

Fragen, die ich oft höre.

Sag mir, welche Modelle du fahren willst.