Spracherkennung lokal — Diktieren ohne Cloud auf Mac und iPhone (2026)
Wer eine Diktiersoftware sucht, stößt früher oder später auf die Frage: lokal oder Cloud? Die meisten bekannten Tools — Wispr Flow, ältere Versionen von Dragon Dragon Mobile, sogar Apples eingebautes Diktat in vielen Kontexten — verarbeiten die Stimme auf externen Servern. „Lokale Spracherkennung" oder „On-Device-Spracherkennung" bedeutet das Gegenteil: die KI läuft direkt auf Ihrem Mac, iPhone oder PC, und kein Audio verlässt das Gerät.
Diese Seite erklärt, was lokale Spracherkennung 2026 leisten kann, wofür sie sinnvoll ist und welche Tools sie tatsächlich kompromisslos umsetzen.
Was lokale Spracherkennung bedeutet
Lokale Spracherkennung verarbeitet Audio dort, wo es aufgenommen wird. Das Sprachmodell (typischerweise Whisper, Parakeet oder ein vergleichbares neuronales Netz) ist auf dem Gerät gespeichert; CPU, GPU oder eine spezialisierte Neural Engine wandelt das Audio direkt in Text.
Konkret heißt das:
- Kein Audio-Upload. Die Mikrofondaten bleiben physisch auf dem Gerät.
- Keine Internetverbindung nötig. Funktioniert im Flugzeug, im Keller, im Krankenhaus, im Zug-Tunnel.
- Kein Konto. Keine Anmeldung, keine E-Mail, keine Benutzerverwaltung.
- Keine Auftragsverarbeitung. DSGVO-rechtlich entfällt der gesamte Komplex der Datenübertragung an Dritte.
Das technische Schlüsselwort der letzten Jahre ist Apple Silicon: M1, M2, M3, M4-Chips und die A-Serie der iPhones haben eine Neural Engine (ANE), die Sprachmodelle hardwarebeschleunigt ausführen kann — bei deutlich geringerem Stromverbrauch als CPU oder GPU.
Warum es wichtig ist
Drei harte Gründe, nicht nur „aus Prinzip":
1. Datenschutz und Rechtskonformität
Wer mit Patientendaten, Mandanten-Kommunikation, journalistischen Quellen, proprietärem Code oder Finanzinformationen arbeitet, kann die Inhalte rechtlich oft nicht an Drittanbieter senden. Die DSGVO klassifiziert Gesundheitsdaten in Artikel 9 als besonders schützenswert; anwaltliche Verschwiegenheit (§ 203 StGB) verbietet Drittweiterleitung; journalistischer Quellenschutz steht unter Pressefreiheits-Vorbehalt.
Bei lokaler Spracherkennung entstehen die Probleme nicht, weil keine Daten übertragen werden. Keine Auftragsverarbeitungsvereinbarung, kein Verzeichnis der Verarbeitungstätigkeiten für den Diktierschritt, keine Datenschutz-Folgenabschätzung.
2. Verfügbarkeit
Cloud-Diktiersoftware funktioniert nicht ohne Internet. Lokale Spracherkennung funktioniert immer. Das wird wichtig im Flugzeug, in der Praxis ohne stabiles WLAN, im Bestattungsinstitut im Keller, im Krankenhaus mit gestörter Verbindung — überall, wo die Cloud nicht erreichbar ist.
3. Unabhängigkeit vom Anbieter
Cloud-Dienste ändern Preise, AGB, Funktionsumfang. Microsoft hat Nuance gekauft und Dragon-Strategie verändert. Google stellt regelmäßig Sprach-APIs ein. Wer auf einen Cloud-Anbieter angewiesen ist, ist von dessen Geschäftsentscheidungen abhängig.
Eine lokal installierte Diktiersoftware funktioniert weiter — auch wenn der Hersteller das Produkt einstellt, der Server abgeschaltet wird, oder das Preismodell sich ändert.
Was 2026 wirklich lokal arbeitet
Auf dem Mac
SpeakUp — 29 € einmalig, vollständig lokal. Nutzt whisper.cpp mit Encoder auf der Apple Neural Engine via Core ML und Decoder auf der Metal-GPU. Keine Netzwerkfähigkeit, keine Bildschirmaufnahme-Berechtigung, kein Cloud-Server existiert. Architektonisch unfähig, Audio nach außen zu senden.
Superwhisper — 99 $/Jahr, ebenfalls whisper.cpp-basiert. Lokale Verarbeitung. Optional KI-Bearbeitung (die den Text nachträglich umschreibt — wer das nicht aktiviert, hat eine reine lokale Lösung).
MacWhisper — kostenlose Basisversion + Bezahlpläne. Lokal, aber ausgelegt auf Datei-Transkription (Meetings, Podcasts), nicht auf Live-Diktat in System-Apps.
Apple Diktat — teilweise lokal. macOS Sequoia (2025) führte ein 60-Sekunden-Limit für Offline-Diktate ein; längere Diktate gehen typischerweise über Apple-Server. Hybride Lösung, nicht kompromisslos lokal.
Dragon (Mac) — eingestellt. Existierte historisch als lokale Lösung, ist 2026 für macOS nicht mehr verfügbar.
Wispr Flow — Cloud. Nicht lokal. Audio wird an externe Server gesendet, zusätzlich werden Screenshots des aktiven Fensters aufgenommen.
Auf dem iPhone
SpeakUp fürs iPhone — kostenlos. Nutzt Parakeet TDT v3 auf Apples Neural Engine via Core ML. Die Tastaturerweiterung hat keinen Netzwerkzugriff (von iOS auf Kernel-Ebene blockiert). Vollständig lokal.
iOS-Diktat — hybrid. Kurze englische Sätze laufen lokal; längere Diktate und manche Sprachen routen über Apple-Server.
Wispr Flow iOS — Cloud.
Auf Windows
Lokale Spracherkennung auf Windows ist 2026 noch dünn. Dragon NaturallySpeaking auf Windows läuft lokal, aber mit alternder Engine. Whisper-basierte Open-Source-Tools existieren (whisper.cpp läuft mit DirectML), kommerzielle polierte Produkte sind selten. SpeakUp für Windows ist in der Vorlaunch-Phase — Anmeldung unter getspeakup.app/windows/.
Wo lokale Spracherkennung an Grenzen stößt
Ehrlich bleiben: lokal hat Trade-offs.
Modellgröße. Whisper-Large ist ~3 GB. Auf Mac kein Problem; auf iPhone fällt das auf — SpeakUp nutzt deshalb Parakeet, ein kleineres, ANE-optimiertes Modell. Auf älteren Geräten ist große Whisper-Genauigkeit nicht erreichbar.
iOS-Speicherlimit für Tastaturen. iOS begrenzt Tastaturerweiterungen auf rund 48 MB Arbeitsspeicher. Deshalb hat die SpeakUp-iPhone-Tastatur ein 60-Sekunden-Aufnahmelimit pro Abschnitt. Mac hat dieses Limit nicht.
Akku. Lokale Inferenz nutzt CPU/GPU/ANE — minimal mehr Akku als Cloud-Upload. In der Praxis vernachlässigbar (Whisper-Inferenz ist nur Millisekunden), aber technisch existent.
Mehrsprachiger Live-Wechsel. Funktioniert mit Whisper und Parakeet automatisch, ist aber in Edge-Cases (zwei Sprachen im selben Satz) nicht perfekt. Cloud-Modelle sind hier oft ähnlich oder schlechter — kein klarer Cloud-Vorteil mehr.
Spezialvokabular. Generische Whisper-Modelle erkennen alltägliche Sprache gut, aber Fach-Vokabular (medizinisch, juristisch, technisch) braucht Hilfe. SpeakUp löst das mit Lexika — domänenspezifischen Wörterbüchern, die nach der Transkription lokal Korrekturen anwenden. Auch das passiert vollständig auf dem Gerät.
Wie SpeakUp lokale Spracherkennung umsetzt
SpeakUp ist von Grund auf für lokale Verarbeitung gebaut. Konkret:
Auf dem Mac läuft die Engine als whisper.cpp-Build mit Encoder auf der Apple Neural Engine via Core ML und Decoder auf der Metal-GPU. Das macht die Transkription 2–3× schneller als reine CPU-Whisper-Implementierungen. Die App ist sandboxed, hat keine Bildschirmaufnahme-Berechtigung, keine ausgehende Netzwerkfähigkeit, keinen vollständigen Festplattenzugriff. Mit Aktivitätsanzeige oder Little Snitch selbst überprüfbar.
Auf dem iPhone läuft Parakeet TDT v3 (NVIDIAs quelloffenes Sprachmodell, Apache-2.0) auf Apples Neural Engine via Core ML. Die Tastaturerweiterung hat keinen direkten Mikrofonzugriff (iOS kernel-blockt das) — die Haupt-App nimmt auf, die Tastatur kommuniziert nur über einen App-Group-Container. Kein Netzwerkzugriff, keine Telemetrie, kein Analytics-SDK.
Beide Apps zusammen ergeben den lokalen Workflow: am Schreibtisch mit Mac und globalem Hotkey, unterwegs mit iPhone-Tastatur und Mikrofontaste. Datenschutz identisch, Engine angepasst an die jeweilige Hardware.
Lokal vs. Cloud — was wirklich zählt
| Kriterium | Lokal (SpeakUp) | Cloud (Wispr Flow) |
|---|---|---|
| Audio verlässt Gerät | Nie | Bei jedem Diktat |
| Internet nötig | Nein | Ja |
| Auftragsverarbeitung | Entfällt | Erforderlich |
| Konto / Login | Nicht erforderlich | Erforderlich |
| Anbieter-Abhängigkeit | Gering | Hoch |
| Latenz | Millisekunden lokal | Netzwerk + Server |
| Mehrsprachig | Whisper/Parakeet auto | Cloud-Modelle |
| Bildschirm-Screenshots | Nie | Bei Wispr Flow ja |
| Preis-Modell | 29 € einmalig (Mac), kostenlos (iPhone) | 15 $/Monat |
Fazit
Lokale Spracherkennung ist 2026 die saubere Lösung für alle, die mit vertraulichem Material arbeiten, in Umgebungen ohne stabile Internetverbindung diktieren, oder einfach nicht jedes Diktat an einen Drittanbieter senden wollen. Die Genauigkeit ist mit Cloud-Lösungen vergleichbar — Whisper und Parakeet sind dieselbe Klasse von Modellen, die kommerzielle Cloud-Dienste hinter den Kulissen ohnehin nutzen.
Wer auf Mac oder iPhone diktieren will, hat mit SpeakUp die kompromissloseste lokale Lösung: keine Cloud, kein Abo, kein Konto. Mac-App testen (14 Tage kostenlos) · iPhone-Tastatur installieren (kostenlos).
Verwandt: Beste Diktiersoftware für Mac 2026 · Offline-Diktiersoftware · Datenschutz-Architektur · Macht Wispr Flow Screenshots? · SpeakUp vs Wispr Flow · Apple Diktat vs Dragon · Diktiersoftware für Ärzte · Diktiersoftware für Anwälte · Kostenlose iPhone-Tastatur