werkzeuge

Anleitung für lokale LLMs: Erste Schritte mit Ollama, LM Studio und mehr

May 22, 2025

von Macfleet Team

Mit dem wachsenden Interesse an KI-Privatsphäre und Anpassung ist das lokale Ausführen großer Sprachmodelle (LLMs) auf eigener Hardware immer beliebter geworden. Aber für Anfänger kann das Ökosystem von Tools wie Ollama, LM Studio und Open WebUI überwältigend sein. Diese Anleitung erklärt alles, was Sie wissen müssen, um mit lokalen LLMs zu beginnen.

Lokale LLMs verstehen

Lokales Ausführen von LLMs bietet mehrere Vorteile:

Vollständige Privatsphäre: Ihre Daten verlassen niemals Ihr Gerät
Keine Abonnementkosten: Verwenden Sie Open-Source-Modelle kostenlos
Anpassung: Feinabstimmung von Modellen für spezifische Anwendungsfälle
Offline-Zugang: Arbeiten ohne Internetverbindung

Hardware-Anforderungen

Ihre Hardware bestimmt, welche Modelle Sie effektiv ausführen können:

GPU VRAM-Anforderungen

4GB VRAM: Führen Sie Gemma 2B, Phi 3 Mini bei Q8 oder Llama 3 8B/Gemma 9B bei Q4 aus
8GB VRAM: Führen Sie Llama 3 8B/Gemma 9B bei Q8 aus
16GB VRAM: Führen Sie Gemma 27B/Command R 35B bei Q4 aus
24GB VRAM: Führen Sie Gemma 27B bei Q6 oder Llama 3 70B bei Q2 aus

Quantisierungen (Q2, Q4, etc.) komprimieren Modelle für weniger leistungsstarke Hardware. Q8 bietet hohe Qualität mit minimalem Intelligenzverlust, während Q2 nur für große Modelle bei Nicht-Programmieraufgaben geeignet ist.

Beste Tools für Anfänger

LM Studio

LM Studio bietet den einfachsten Einstiegspunkt für Anfänger:

Benutzerfreundliche GUI-Oberfläche
Integrierte Modellbibliothek mit Ein-Klick-Downloads
Automatische Quantisierungsoptionen
OpenAI-kompatibler API-Server
Unterstützung für Embedding-Modelle wie Nomic Embed v1.5

Ollama

Ollama bietet einen entwicklerorientierten Ansatz:

Kommandozeilen-Interface (einfach aber mächtig)
Großartig für Programmierer und API-Integration
Exzellente Leistungsoptimierung
Funktioniert gut mit verschiedenen Front-ends

AnythingLLM

AnythingLLM kombiniert Dokumentenverarbeitung mit lokalen LLMs:

Integriertes RAG (Retrieval-Augmented Generation)
Dokumentenindexierung und Vektorisierung
Benutzerfreundliche Oberfläche
Unterstützung für lokale und Cloud-Modelle

Open WebUI

Ein mächtiges Front-end hauptsächlich für Ollama:

Reichhaltiger Feature-Satz
Multi-User-Unterstützung
Funktioniert über lokale Netzwerke
Anpassungsoptionen

Schritt-für-Schritt-Setup-Anleitung

Erste Schritte mit LM Studio

Laden Sie LM Studio von ihrer Website herunter und installieren Sie es
Durchsuchen Sie die Modellbibliothek und laden Sie ein Modell herunter, das zu Ihrer Hardware passt
Wählen Sie Ihr bevorzugtes Quantisierungslevel
Führen Sie das Modell lokal aus und beginnen Sie zu chatten
Optional: Aktivieren Sie den API-Server für Verbindungen mit anderen Anwendungen

Beliebte Frameworks für lokale LLM-Ausführung

Es gibt mehrere ausgezeichnete Frameworks für die Ausführung von LLMs auf Ihrem lokalen Computer. Hier ist eine Aufschlüsselung der benutzerfreundlichsten Optionen:

1. GPT4All

GPT4All ist eine der anfängerfreundlichsten Optionen für lokale LLM-Ausführung:

Einfaches Setup: Einfacher Installationsprozess mit benutzerfreundlicher GUI
GPU-Beschleunigung: Verwendet automatisch CUDA, falls verfügbar
OpenAI-Integration: Kann Ihren OpenAI-API-Schlüssel für GPT-3.5/4-Zugang verwenden
Kontextbewusste Antworten: Verbinden Sie lokale Ordner für dokumentenbasierte Abfragen
API-Server: Aktivieren Sie den API-Server für Integration mit anderen Anwendungen

GPT4All erkunden →

2. LM Studio

LM Studio bietet mehr Anpassung als GPT4All:

Reichhaltige Modellbibliothek: Einfacher Zugang zum Download von Modellen von Hugging Face
Mehrere Modellsitzungen: Führen Sie verschiedene Modelle gleichzeitig aus und vergleichen Sie sie
Erweiterte Konfiguration: Feinabstimmung von Modellparametern für optimale Leistung
Lokaler Inferenz-Server: Starten Sie einen API-Server mit einem Klick
Hohe Leistung: Optimiert für Geschwindigkeit mit GPU-Beschleunigung

LM Studio erkunden →

3. AnythingLLM

AnythingLLM kombiniert Dokumentenverarbeitung mit lokalen LLMs:

Integriertes RAG: Integrierte Retrieval-Augmented Generation
Dokumentenindexierung: Verarbeitet und vektorisiert automatisch Ihren Inhalt
Benutzerfreundliche Oberfläche: Sauberes Design für einfache Interaktion
Flexible Modellunterstützung: Funktioniert mit lokalen und Cloud-Modellen
Multi-User-Fähigkeit: Unterstützt Teamzusammenarbeit

AnythingLLM erkunden →

4. Jan

Jan kombiniert Geschwindigkeit mit eleganter Oberfläche:

Schnelle Antwortgenerierung: Generiert Antworten mit ~53 Token/Sek
Schöne UI: Saubere, ChatGPT-ähnliche Oberfläche
Modellimport: Importieren Sie Modelle von anderen Frameworks
Erweiterungen: Installieren Sie Erweiterungen zur Funktionserweiterung
Proprietäre Modellunterstützung: Verwenden Sie Modelle von OpenAI, MistralAI und Groq

Jan erkunden →

5. llama.cpp

Eine mächtige C/C++-Implementierung, die viele LLM-Anwendungen antreibt:

Hohe Effizienz: In C/C++ für maximale Leistung geschrieben
Flexible Bereitstellung: Über Kommandozeile oder Web-Interface ausführen
GPU-Beschleunigung: CUDA-fähige Version für schnellere Antworten installieren
Tiefe Anpassung: Alle Modellparameter feinabstimmen
Entwicklerfreundlich: Großartig für Integration in benutzerdefinierte Anwendungen

llama.cpp erkunden →

6. llamafile

Vereinfacht llama.cpp zu einer einzigen ausführbaren Datei:

Einzeldatei-Executable: Kombiniert llama.cpp mit Cosmopolitan Libc
Keine Konfiguration nötig: Verwendet automatisch GPU ohne Setup
Multimodale Unterstützung: Modelle wie LLaVA können Bilder und Text verarbeiten
Hohe Leistung: Viel schneller als Standard-llama.cpp (bis zu 5x)
Plattformübergreifend: Funktioniert nahtlos auf Windows, macOS und Linux

llamafile erkunden →

7. Ollama

Kommandozeilen-fokussiertes Tool mit breiter Anwendungsunterstützung:

Terminal-basiert: Einfach über Kommandozeile zu verwenden
Breite Modellunterstützung: Zugang zu Llama 3, Mistral, Gemma und mehr
Anwendungsintegration: Viele Anwendungen akzeptieren Ollama-Integration
Benutzerdefinierte Modellunterstützung: Verwenden Sie heruntergeladene Modelle von anderen Frameworks
Einfache Befehle: Leicht zu merkende Befehle für Modellverwaltung

Mit unserer Ollama-Anleitung beginnen →

8. NextChat

Perfekt für diejenigen, die proprietäre Modelle lokal verwenden möchten:

API-Integration: Verwenden Sie GPT-3, GPT-4 und Gemini Pro über API-Schlüssel
Web-UI verfügbar: Auch als Webanwendung verfügbar
Ein-Klick-Bereitstellung: Stellen Sie einfach Ihre eigene Web-Instanz bereit
Lokale Datenspeicherung: Benutzerdaten lokal für Privatsphäre gespeichert
Anpassungsoptionen: Vollständige Kontrolle über Modellparameter

NextChat erkunden →

Dokumentenverarbeitung (RAG) einrichten

Für diejenigen, die mit ihren Dokumenten chatten möchten:

Wählen Sie eine Lösung mit RAG-Fähigkeiten (AnythingLLM, Jan.io)
Importieren Sie Ihre Dokumente (PDFs, Word-Dateien, Code-Repositories)
Das System wird automatisch Ihren Inhalt indizieren und vektorisieren
Verbinden Sie sich mit Ihrem lokalen LLM oder Cloud-Anbieter
Beginnen Sie, Fragen zu Ihren Dokumenten zu stellen

Erweiterte Themen

Modellgrößen und Fähigkeiten verstehen

Verschiedene Modellgrößen bieten verschiedene Fähigkeiten:

Kleine Modelle (2B-8B Parameter): Grundlegende Unterstützung, begrenztes Reasoning
Mittlere Modelle (8B-30B Parameter): Gutes Reasoning, Programmierfähigkeiten
Große Modelle (30B+ Parameter): Erweiterte Reasoning, spezialisiertes Wissen

Modelle auf mehreren GPUs ausführen

Für größere Modelle können Sie die Arbeitslast verteilen:

Verwenden Sie Tensor-Parallelismus, um Modelle auf GPUs aufzuteilen
Konfigurieren Sie VRAM-Zuteilung für optimale Leistung
Balancieren Sie zwischen GPU- und CPU-Offloading

Bereit, Ihr lokales LLM zu starten?

Lokale LLMs geben Ihnen Kontrolle, Privatsphäre und Anpassung, die Cloud-Services nicht bieten können. Beginnen Sie mit LM Studio für den einfachsten Einstiegspunkt und erkunden Sie dann andere Optionen, während Sie sich mit der Technologie vertrauter machen.

Ob Sie privat mit KI chatten, sensible Dokumente verarbeiten oder benutzerdefinierte Anwendungen erstellen möchten, lokale LLMs bieten eine mächtige Alternative zu cloud-basierten Lösungen. Die anfängliche Lernkurve lohnt sich für die Freiheit und Fähigkeiten, die Sie gewinnen werden.