Hokusbloggus

2026

Archive page for 2026 by Hokusbloggus
  • Posted on

    Nie wieder tippen: Lokale Spracheingabe mit WhisperWriter

    Ich hab letzte Woche aufgehört zu tippen. Nicht komplett, aber für alles, was länger als drei Sätze ist. Mails, Briefings, Chat-Nachrichten. Alles diktiert. Lokal, auf meinem Rechner, ohne Cloud, ohne Abo.

    Das Tool heißt WhisperWriter. Open Source, basiert auf OpenAI Whisper, und funktioniert in jedem Textfeld. Browser, Mail-Client, Texteditor, egal. Shortcut drücken, reden, Text erscheint. Die Erkennung auf Deutsch ist dabei so gut, dass ich anfangs dachte, da stimmt was nicht.

    Hier ist die komplette Anleitung, damit du das in einer halben Stunde selbst aufgesetzt hast.

    Was du brauchst

    Einen Windows-Rechner mit halbwegs aktueller Hardware. Für die beste Erfahrung eine NVIDIA-Grafikkarte mit mindestens 4 GB VRAM. Whisper läuft auch auf der CPU, nur deutlich langsamer.

    Außerdem: Python 3.10 oder 3.11 (von python.org, bei der Installation „Add to PATH" anhaken), Git (git-scm.com) und ffmpeg. Letzteres geht am schnellsten über die Kommandozeile:

    winget install Gyan.FFmpeg
    

    Ob deine GPU CUDA-fähig ist, zeigt dir nvidia-smi in der Eingabeaufforderung.

    Installation

    Öffne die Eingabeaufforderung (CMD, nicht PowerShell) und gib ein:

    cd %USERPROFILE%
    git clone https://github.com/savbell/whisper-writer.git
    cd whisper-writer
    python -m pip install --upgrade pip
    python -m pip install -r requirements.txt
    

    Falls der Build von av fehlschlägt: In der requirements.txt die av-Version durch av==12.3.0 ersetzen und mit python -m pip install av==12.3.0 --only-binary=:all: installieren, danach nochmal python -m pip install -r requirements.txt.

    Der sounddevice-Fix (wichtig unter Windows)

    WhisperWriter kann unter Windows still abstürzen, weil sounddevice und PyQt5 sich in die Quere kommen. Die Lösung: Öffne src/main.py und füge ganz oben, als allererste Zeile, ein:

    import sounddevice  # must be imported before PyQt5
    

    Ohne diesen Fix startet das Programm, zeigt aber kein Fenster und gibt keine Fehlermeldung. Einer der Fälle, bei denen man eine Stunde sucht, weil alles still scheitert.

    GPU-Bibliotheken einrichten

    Für GPU-beschleunigte Transkription braucht faster-whisper die cuBLAS- und cuDNN-Bibliotheken. Am einfachsten über das fertige Paket von Purfview:

    github.com/Purfview/whisper-standalone-win/releases/tag/libs

    Dort das zu deiner CUDA-Version passende Archiv herunterladen. Für ctranslate2 4.x brauchst du cuDNN 8.x, nicht 9.x. Das heißt konkret:

    CUDA 12: das Paket cuBLAS.and.cuDNN____v12.4.5.8___v8.9.7.29 CUDA 11: das Paket cuBLAS.and.cuDNN____v11.11.3.6__v8.9.7.29

    Die DLLs entpacken und entweder nach C:\Windows\System32 kopieren oder in einen eigenen Ordner legen und diesen zum PATH hinzufügen.

    Erster Start und Konfiguration

    cd %USERPROFILE%\whisper-writer
    python run.py
    

    Beim ersten Start öffnet sich ein Einstellungsfenster. Dort stellst du ein:

    use_api auf false (lokal, kein API-Key nötig) language auf de model auf large-v3 (beste Qualität, braucht ca. 3 GB VRAM, alternativ medium) recording_mode auf press_to_toggle oder hold_to_record, je nach Vorliebe

    Speichern, Programm neu starten. Beim ersten Durchlauf wird das Whisper-Modell heruntergeladen (ca. 3 GB für large-v3), danach ist es gecacht und der Start geht schnell.

    Im Hauptfenster „Start" drücken. Ab jetzt läuft WhisperWriter im Hintergrund.

    Benutzung

    Der Standard-Shortcut ist Ctrl+Shift+Space.

    Klick in ein beliebiges Textfeld. Shortcut drücken. Reden. Nach ein paar Sekunden erscheint der transkribierte Text. Whisper entfernt dabei automatisch Ähms, Fülllaute und Pausen. Das Ergebnis ist sauberer, als man es von Spracheingabe erwartet.

    Autostart mit Windows

    Erstelle eine Datei namens start_ww.bat im WhisperWriter-Ordner:

    @echo off
    cd /d "%USERPROFILE%\whisper-writer"
    start /min pythonw run.py
    

    Dann Win+R, shell:startup eingeben und eine Verknüpfung zur .bat-Datei dort ablegen. WhisperWriter startet ab sofort automatisch mit Windows.

    Ausblick: Text mit einem lokalen LLM bereinigen

    Whisper liefert sauberen Text, aber gesprochene Sprache bleibt gesprochene Sprache. Wer auch Satzstruktur, Wiederholungen und Grammatik automatisch bereinigen will, kann den Whisper-Output durch ein lokales LLM schicken. Zum Beispiel mit Ollama und einem kleinen Modell wie Gemma. Alles bleibt auf dem eigenen Rechner, Latenz sind ein paar Sekunden extra, aber der Text liest sich danach wie geschrieben statt wie diktiert.

    Dazu kommt demnächst ein eigener Beitrag.


    Du hast Fragen zum Setup oder willst wissen, wie ich das im Arbeitsalltag nutze? Schreib mir.