Was bedeutet lokale Spracherkennung?

Lokale Spracherkennung (auch „On-Device-Spracherkennung" oder „Offline-Spracherkennung") verarbeitet Sprache direkt auf dem Gerät, ohne Audio an externe Server zu senden. Das KI-Modell läuft auf dem Mac, iPhone oder Windows-PC selbst. Keine Internetverbindung nötig, keine Daten verlassen das Gerät.

Warum ist lokale Spracherkennung wichtig?

Drei Gründe: Datenschutz (Audio bleibt beim Anwender — entscheidend für Ärzte, Anwälte, Journalisten, Entwickler), Verfügbarkeit (funktioniert offline, im Flugzeug, im Krankenhaus), und Kontrolle (keine Abhängigkeit von Anbieter-Uptime oder geänderten Geschäftsbedingungen). Plus: DSGVO-rechtlich oft die saubere Lösung, weil keine Auftragsverarbeitung anfällt.

Welche lokalen Diktierprogramme gibt es 2026?

Auf Mac: SpeakUp (29 € einmalig, whisper.cpp + Metal GPU + Apple Neural Engine), Superwhisper (99 $/Jahr, ebenfalls whisper.cpp), MacWhisper (Datei-Transkription). Auf iPhone: SpeakUp (kostenlos, Parakeet auf Apple Neural Engine). Apple Diktat ist hybrid und teilweise cloud-basiert. Dragon für Mac wurde eingestellt.

Ist Apples Diktierfunktion lokal?

Teilweise. macOS Sequoia (2025) führte ein 60-Sekunden-Limit für Offline-Diktate ein; längere Diktate gehen typischerweise über Apple-Server. Auch die Sprache und der Kontext entscheiden — die „On-Device"-Aussage ist bedingt. Komplett lokale Alternativen wie SpeakUp arbeiten kompromisslos auf dem Gerät.

Wie funktioniert lokale Spracherkennung technisch?

Das KI-Sprachmodell (z.B. Whisper, Parakeet) wird auf dem Gerät gespeichert. Bei Aufnahme verarbeitet die CPU, GPU oder Neural Engine das Audio direkt zu Text. Apple Silicon ist hier besonders effizient: Metal GPU für Whisper-Decoder, Apple Neural Engine für Encoder. Eine 10-Sekunden-Aufnahme wird typischerweise in 1–2 Sekunden transkribiert.

Funktioniert lokale Spracherkennung auch auf Deutsch?

Ja. Moderne Modelle wie Whisper und Parakeet wurden auf mehrsprachigen Daten trainiert — Deutsch wird gleichberechtigt mit Englisch unterstützt. Komposita, Umlaute und deutsche Sprachmelodie werden zuverlässig erkannt. Cloud-Tools haben hier keinen technischen Vorteil mehr.

Was ist der Unterschied zwischen lokal und offline?

„Lokal" bezieht sich auf den Verarbeitungsort (auf dem Gerät), „offline" auf die Internetverbindung (nicht erforderlich). Echte lokale Spracherkennung ist gleichzeitig offline-fähig. Manche Tools werben mit „offline", brauchen aber trotzdem regelmäßige Cloud-Synchronisation — das ist kein echtes lokales Arbeiten.

Datenschutz

Spracherkennung lokal — Diktieren ohne Cloud auf Mac und iPhone (2026)

Mai 2026 · 8 Min. Lesezeit

Wer eine Diktiersoftware sucht, stößt früher oder später auf die Frage: lokal oder Cloud? Die meisten bekannten Tools — Wispr Flow, ältere Versionen von Dragon Dragon Mobile, sogar Apples eingebautes Diktat in vielen Kontexten — verarbeiten die Stimme auf externen Servern. „Lokale Spracherkennung" oder „On-Device-Spracherkennung" bedeutet das Gegenteil: die KI läuft direkt auf Ihrem Mac, iPhone oder PC, und kein Audio verlässt das Gerät.

Diese Seite erklärt, was lokale Spracherkennung 2026 leisten kann, wofür sie sinnvoll ist und welche Tools sie tatsächlich kompromisslos umsetzen.

Was lokale Spracherkennung bedeutet

Lokale Spracherkennung verarbeitet Audio dort, wo es aufgenommen wird. Das Sprachmodell (typischerweise Whisper, Parakeet oder ein vergleichbares neuronales Netz) ist auf dem Gerät gespeichert; CPU, GPU oder eine spezialisierte Neural Engine wandelt das Audio direkt in Text.

Konkret heißt das:

Kein Audio-Upload. Die Mikrofondaten bleiben physisch auf dem Gerät.
Keine Internetverbindung nötig. Funktioniert im Flugzeug, im Keller, im Krankenhaus, im Zug-Tunnel.
Kein Konto. Keine Anmeldung, keine E-Mail, keine Benutzerverwaltung.
Keine Auftragsverarbeitung. DSGVO-rechtlich entfällt der gesamte Komplex der Datenübertragung an Dritte.

Das technische Schlüsselwort der letzten Jahre ist Apple Silicon: M1, M2, M3, M4-Chips und die A-Serie der iPhones haben eine Neural Engine (ANE), die Sprachmodelle hardwarebeschleunigt ausführen kann — bei deutlich geringerem Stromverbrauch als CPU oder GPU.

Warum es wichtig ist

Drei harte Gründe, nicht nur „aus Prinzip":

1. Datenschutz und Rechtskonformität

Wer mit Patientendaten, Mandanten-Kommunikation, journalistischen Quellen, proprietärem Code oder Finanzinformationen arbeitet, kann die Inhalte rechtlich oft nicht an Drittanbieter senden. Die DSGVO klassifiziert Gesundheitsdaten in Artikel 9 als besonders schützenswert; anwaltliche Verschwiegenheit (§ 203 StGB) verbietet Drittweiterleitung; journalistischer Quellenschutz steht unter Pressefreiheits-Vorbehalt.

Bei lokaler Spracherkennung entstehen die Probleme nicht, weil keine Daten übertragen werden. Keine Auftragsverarbeitungsvereinbarung, kein Verzeichnis der Verarbeitungstätigkeiten für den Diktierschritt, keine Datenschutz-Folgenabschätzung.

2. Verfügbarkeit

Cloud-Diktiersoftware funktioniert nicht ohne Internet. Lokale Spracherkennung funktioniert immer. Das wird wichtig im Flugzeug, in der Praxis ohne stabiles WLAN, im Bestattungsinstitut im Keller, im Krankenhaus mit gestörter Verbindung — überall, wo die Cloud nicht erreichbar ist.

3. Unabhängigkeit vom Anbieter

Cloud-Dienste ändern Preise, AGB, Funktionsumfang. Microsoft hat Nuance gekauft und Dragon-Strategie verändert. Google stellt regelmäßig Sprach-APIs ein. Wer auf einen Cloud-Anbieter angewiesen ist, ist von dessen Geschäftsentscheidungen abhängig.

Eine lokal installierte Diktiersoftware funktioniert weiter — auch wenn der Hersteller das Produkt einstellt, der Server abgeschaltet wird, oder das Preismodell sich ändert.

Was 2026 wirklich lokal arbeitet

Auf dem Mac

SpeakUp — 29 € einmalig, vollständig lokal. Nutzt whisper.cpp mit Encoder auf der Apple Neural Engine via Core ML und Decoder auf der Metal-GPU. Keine Netzwerkfähigkeit, keine Bildschirmaufnahme-Berechtigung, kein Cloud-Server existiert. Architektonisch unfähig, Audio nach außen zu senden.

Superwhisper — 99 $/Jahr, ebenfalls whisper.cpp-basiert. Lokale Verarbeitung. Optional KI-Bearbeitung (die den Text nachträglich umschreibt — wer das nicht aktiviert, hat eine reine lokale Lösung).

MacWhisper — kostenlose Basisversion + Bezahlpläne. Lokal, aber ausgelegt auf Datei-Transkription (Meetings, Podcasts), nicht auf Live-Diktat in System-Apps.

Apple Diktat — teilweise lokal. macOS Sequoia (2025) führte ein 60-Sekunden-Limit für Offline-Diktate ein; längere Diktate gehen typischerweise über Apple-Server. Hybride Lösung, nicht kompromisslos lokal.

Dragon (Mac) — eingestellt. Existierte historisch als lokale Lösung, ist 2026 für macOS nicht mehr verfügbar.

Wispr Flow — Cloud. Nicht lokal. Audio wird an externe Server gesendet, zusätzlich werden Screenshots des aktiven Fensters aufgenommen.

Auf dem iPhone

SpeakUp fürs iPhone — kostenlos. Nutzt Parakeet TDT v3 auf Apples Neural Engine via Core ML. Die Tastaturerweiterung hat keinen Netzwerkzugriff (von iOS auf Kernel-Ebene blockiert). Vollständig lokal.

iOS-Diktat — hybrid. Kurze englische Sätze laufen lokal; längere Diktate und manche Sprachen routen über Apple-Server.

Wispr Flow iOS — Cloud.

Auf Windows

Lokale Spracherkennung auf Windows ist 2026 noch dünn. Dragon NaturallySpeaking auf Windows läuft lokal, aber mit alternder Engine. Whisper-basierte Open-Source-Tools existieren (whisper.cpp läuft mit DirectML), kommerzielle polierte Produkte sind selten. SpeakUp für Windows ist in der Vorlaunch-Phase — Anmeldung unter getspeakup.app/windows/.

Wo lokale Spracherkennung an Grenzen stößt

Ehrlich bleiben: lokal hat Trade-offs.

Modellgröße. Whisper-Large ist ~3 GB. Auf Mac kein Problem; auf iPhone fällt das auf — SpeakUp nutzt deshalb Parakeet, ein kleineres, ANE-optimiertes Modell. Auf älteren Geräten ist große Whisper-Genauigkeit nicht erreichbar.

iOS-Speicherlimit für Tastaturen. iOS begrenzt Tastaturerweiterungen auf rund 48 MB Arbeitsspeicher. Deshalb hat die SpeakUp-iPhone-Tastatur ein 60-Sekunden-Aufnahmelimit pro Abschnitt. Mac hat dieses Limit nicht.

Akku. Lokale Inferenz nutzt CPU/GPU/ANE — minimal mehr Akku als Cloud-Upload. In der Praxis vernachlässigbar (Whisper-Inferenz ist nur Millisekunden), aber technisch existent.

Mehrsprachiger Live-Wechsel. Funktioniert mit Whisper und Parakeet automatisch, ist aber in Edge-Cases (zwei Sprachen im selben Satz) nicht perfekt. Cloud-Modelle sind hier oft ähnlich oder schlechter — kein klarer Cloud-Vorteil mehr.

Spezialvokabular. Generische Whisper-Modelle erkennen alltägliche Sprache gut, aber Fach-Vokabular (medizinisch, juristisch, technisch) braucht Hilfe. SpeakUp löst das mit Lexika — domänenspezifischen Wörterbüchern, die nach der Transkription lokal Korrekturen anwenden. Auch das passiert vollständig auf dem Gerät.

Wie SpeakUp lokale Spracherkennung umsetzt

SpeakUp ist von Grund auf für lokale Verarbeitung gebaut. Konkret:

Auf dem Mac läuft die Engine als whisper.cpp-Build mit Encoder auf der Apple Neural Engine via Core ML und Decoder auf der Metal-GPU. Das macht die Transkription 2–3× schneller als reine CPU-Whisper-Implementierungen. Die App ist sandboxed, hat keine Bildschirmaufnahme-Berechtigung, keine ausgehende Netzwerkfähigkeit, keinen vollständigen Festplattenzugriff. Mit Aktivitätsanzeige oder Little Snitch selbst überprüfbar.

Auf dem iPhone läuft Parakeet TDT v3 (NVIDIAs quelloffenes Sprachmodell, Apache-2.0) auf Apples Neural Engine via Core ML. Die Tastaturerweiterung hat keinen direkten Mikrofonzugriff (iOS kernel-blockt das) — die Haupt-App nimmt auf, die Tastatur kommuniziert nur über einen App-Group-Container. Kein Netzwerkzugriff, keine Telemetrie, kein Analytics-SDK.

Beide Apps zusammen ergeben den lokalen Workflow: am Schreibtisch mit Mac und globalem Hotkey, unterwegs mit iPhone-Tastatur und Mikrofontaste. Datenschutz identisch, Engine angepasst an die jeweilige Hardware.

Lokal vs. Cloud — was wirklich zählt

Kriterium	Lokal (SpeakUp)	Cloud (Wispr Flow)
Audio verlässt Gerät	Nie	Bei jedem Diktat
Internet nötig	Nein	Ja
Auftragsverarbeitung	Entfällt	Erforderlich
Konto / Login	Nicht erforderlich	Erforderlich
Anbieter-Abhängigkeit	Gering	Hoch
Latenz	Millisekunden lokal	Netzwerk + Server
Mehrsprachig	Whisper/Parakeet auto	Cloud-Modelle
Bildschirm-Screenshots	Nie	Bei Wispr Flow ja
Preis-Modell	29 € einmalig (Mac), kostenlos (iPhone)	15 $/Monat

Fazit

Lokale Spracherkennung ist 2026 die saubere Lösung für alle, die mit vertraulichem Material arbeiten, in Umgebungen ohne stabile Internetverbindung diktieren, oder einfach nicht jedes Diktat an einen Drittanbieter senden wollen. Die Genauigkeit ist mit Cloud-Lösungen vergleichbar — Whisper und Parakeet sind dieselbe Klasse von Modellen, die kommerzielle Cloud-Dienste hinter den Kulissen ohnehin nutzen.

Wer auf Mac oder iPhone diktieren will, hat mit SpeakUp die kompromissloseste lokale Lösung: keine Cloud, kein Abo, kein Konto. Mac-App testen (14 Tage kostenlos) · iPhone-Tastatur installieren (kostenlos).

Verwandt: Beste Diktiersoftware für Mac 2026 · Offline-Diktiersoftware · Datenschutz-Architektur · Macht Wispr Flow Screenshots? · SpeakUp vs Wispr Flow · Apple Diktat vs Dragon · Diktiersoftware für Ärzte · Diktiersoftware für Anwälte · Kostenlose iPhone-Tastatur