Nie wieder tippen: Lokale Spracheingabe mit WhisperWriter

Ich hab letzte Woche aufgehört zu tippen. Nicht komplett, aber für alles, was länger als drei Sätze ist. Mails, Briefings, Chat-Nachrichten. Alles diktiert. Lokal, auf meinem Rechner, ohne Cloud, ohne Abo.

Das Tool heißt WhisperWriter. Open Source, basiert auf OpenAI Whisper, und funktioniert in jedem Textfeld. Browser, Mail-Client, Texteditor, egal. Shortcut drücken, reden, Text erscheint. Die Erkennung auf Deutsch ist dabei so gut, dass ich anfangs dachte, da stimmt was nicht.

Hier ist die komplette Anleitung, damit du das in einer halben Stunde selbst aufgesetzt hast.

Was du brauchst

Einen Windows-Rechner mit halbwegs aktueller Hardware. Für die beste Erfahrung eine NVIDIA-Grafikkarte mit mindestens 4 GB VRAM. Whisper läuft auch auf der CPU, nur deutlich langsamer.

Außerdem: Python 3.10 oder 3.11 (von python.org, bei der Installation „Add to PATH" anhaken), Git (git-scm.com) und ffmpeg. Letzteres geht am schnellsten über die Kommandozeile:

winget install Gyan.FFmpeg

Ob deine GPU CUDA-fähig ist, zeigt dir nvidia-smi in der Eingabeaufforderung.

Installation

Öffne die Eingabeaufforderung (CMD, nicht PowerShell) und gib ein:

cd %USERPROFILE%
git clone https://github.com/savbell/whisper-writer.git
cd whisper-writer
python -m pip install --upgrade pip
python -m pip install -r requirements.txt

Falls der Build von av fehlschlägt: In der requirements.txt die av-Version durch av==12.3.0 ersetzen und mit python -m pip install av==12.3.0 --only-binary=:all: installieren, danach nochmal python -m pip install -r requirements.txt.

Der sounddevice-Fix (wichtig unter Windows)

WhisperWriter kann unter Windows still abstürzen, weil sounddevice und PyQt5 sich in die Quere kommen. Die Lösung: Öffne src/main.py und füge ganz oben, als allererste Zeile, ein:

import sounddevice  # must be imported before PyQt5

Ohne diesen Fix startet das Programm, zeigt aber kein Fenster und gibt keine Fehlermeldung. Einer der Fälle, bei denen man eine Stunde sucht, weil alles still scheitert.

GPU-Bibliotheken einrichten

Für GPU-beschleunigte Transkription braucht faster-whisper die cuBLAS- und cuDNN-Bibliotheken. Am einfachsten über das fertige Paket von Purfview:

github.com/Purfview/whisper-standalone-win/releases/tag/libs

Dort das zu deiner CUDA-Version passende Archiv herunterladen. Für ctranslate2 4.x brauchst du cuDNN 8.x, nicht 9.x. Das heißt konkret:

CUDA 12: das Paket cuBLAS.and.cuDNN____v12.4.5.8___v8.9.7.29 CUDA 11: das Paket cuBLAS.and.cuDNN____v11.11.3.6__v8.9.7.29

Die DLLs entpacken und entweder nach C:\Windows\System32 kopieren oder in einen eigenen Ordner legen und diesen zum PATH hinzufügen.

Erster Start und Konfiguration

cd %USERPROFILE%\whisper-writer
python run.py

Beim ersten Start öffnet sich ein Einstellungsfenster. Dort stellst du ein:

use_api auf false (lokal, kein API-Key nötig) language auf de model auf large-v3 (beste Qualität, braucht ca. 3 GB VRAM, alternativ medium) recording_mode auf press_to_toggle oder hold_to_record, je nach Vorliebe

Speichern, Programm neu starten. Beim ersten Durchlauf wird das Whisper-Modell heruntergeladen (ca. 3 GB für large-v3), danach ist es gecacht und der Start geht schnell.

Im Hauptfenster „Start" drücken. Ab jetzt läuft WhisperWriter im Hintergrund.

Benutzung

Der Standard-Shortcut ist Ctrl+Shift+Space.

Klick in ein beliebiges Textfeld. Shortcut drücken. Reden. Nach ein paar Sekunden erscheint der transkribierte Text. Whisper entfernt dabei automatisch Ähms, Fülllaute und Pausen. Das Ergebnis ist sauberer, als man es von Spracheingabe erwartet.

Autostart mit Windows

Erstelle eine Datei namens start_ww.bat im WhisperWriter-Ordner:

@echo off
cd /d "%USERPROFILE%\whisper-writer"
start /min pythonw run.py

Dann Win+R, shell:startup eingeben und eine Verknüpfung zur .bat-Datei dort ablegen. WhisperWriter startet ab sofort automatisch mit Windows.

Ausblick: Text mit einem lokalen LLM bereinigen

Whisper liefert sauberen Text, aber gesprochene Sprache bleibt gesprochene Sprache. Wer auch Satzstruktur, Wiederholungen und Grammatik automatisch bereinigen will, kann den Whisper-Output durch ein lokales LLM schicken. Zum Beispiel mit Ollama und einem kleinen Modell wie Gemma. Alles bleibt auf dem eigenen Rechner, Latenz sind ein paar Sekunden extra, aber der Text liest sich danach wie geschrieben statt wie diktiert.

Dazu kommt demnächst ein eigener Beitrag.

Du hast Fragen zum Setup oder willst wissen, wie ich das im Arbeitsalltag nutze? Schreib mir.

2026

Untitled post: Monday, 20 April 2026, 16:43