Macht Wispr Flow Screenshots? Ja — und das bedeutet das
Kurze Antwort: Ja. Wispr Flow nimmt während des Diktierens Screenshots Ihres aktiven Fensters auf und sendet sie an seine Cloud-Server, wo KI sie zur Formatierungs-Verbesserung verarbeitet. Das Unternehmen vermarktet das als „Kontextbewusstsein". Für Entwickler, Anwälte, Ärzte und alle, die mit vertraulichem Material arbeiten, hat das eine klare Folge: Ihre Bildschirminhalte verlassen bei jedem Diktat Ihren Rechner.
Dieser Beitrag erklärt, was genau erfasst wird, wer davon betroffen ist und wie Sie überprüfen, was Ihr aktuelles Sprachtool tut.
Was erfasst wird
Wenn ein Sprachtool einen Screenshot Ihres aktiven Fensters aufnimmt, erfasst es alles, was in diesem Moment auf Ihrem Bildschirm sichtbar ist. In einer typischen Entwicklungssitzung umfasst das:
- Ihren Quellcode. Welche Datei auch immer im Editor geöffnet ist — die Logik, die Architektur, die Implementierungsdetails.
- Ihre Dateistruktur. Die Verzeichnisstruktur Ihres Projekts, die die Anwendungsarchitektur und Modulorganisation offenlegt.
- Terminal-Ausgabe. Build-Logs, Testergebnisse, Fehlermeldungen, Datenbankabfragen und Server-Antworten.
- Umgebungsvariablen. Wenn Ihre
.env-Datei geöffnet ist oder Ihr Terminal Konfigurationswerte ausgegeben hat, können API-Schlüssel und Secrets auf dem Bildschirm sichtbar sein. - Anwendungen im Hintergrund. Slack-Nachrichten, E-Mail-Threads, Browser-Tabs, interne Dokumentation — alles, was hinter oder neben Ihrem Editor sichtbar ist.
Das ist nicht theoretisch. Wispr Flow, eines der meistbeworbenen Sprachtools für Entwickler, nimmt Screenshots des aktiven Fensters als Teil seiner „Kontextbewusstsein"-Funktion auf. Die Screenshots werden an Cloud-Server gesendet, wo KI sie nutzt, um die Transkriptionsformatierung zu verbessern. Das Unternehmen positioniert das als Feature — es hilft dem Tool zu verstehen, welche Anwendung Sie nutzen, um die Ausgabe anzupassen.
Der Preis dieser Bequemlichkeit: Ihre Bildschirminhalte — einschließlich Ihres Codes — werden an einen Dritten übermittelt und dort verarbeitet.
Für wen das relevant ist
Startup-Entwickler. Ihre Codebasis ist das geistige Eigentum Ihres Unternehmens. Ein Screenshot Ihres Editors kann proprietäre Algorithmen, unveröffentlichte Features, Datenbankschemata oder Geschäftslogik offenlegen, die für Wettbewerber wertvoll wäre.
Freelancer und Berater. Sie arbeiten an Kundenprojekten unter Geheimhaltungsvereinbarung. Ihr Vertrag erlaubt mit ziemlicher Sicherheit nicht, Screenshots des Kundencodes an einen Cloud-Dienst zu übertragen. Ein einziger Screenshot kann genug Kontext enthalten, um einen Vertragsbruch darzustellen.
Enterprise-Entwickler. Die Sicherheitsrichtlinien Ihres Arbeitgebers existieren aus gutem Grund. Firmen-Codebasen sind geschützte Vermögenswerte. Ein Tool, das Ihre IDE abfotografiert und die Bilder an externe Server sendet, würde jedes vernünftige Security-Audit nicht bestehen.
Open-Source-Beitragende. Selbst bei Open Source enthält Ihre Entwicklungsumgebung Informationen jenseits des öffentlichen Codes — Entwurfsimplementierungen, unveröffentlichte Branches, private Forks, interne Diskussionsthreads in anderen Fenstern.
Audioverarbeitung vs. Bildschirmaufnahme
Es gibt einen wesentlichen architektonischen Unterschied zwischen einem Sprachtool, das Audio verarbeitet, und einem, das Ihren Bildschirm aufnimmt.
Ein Tool, das ausschließlich Audio verarbeitet, nimmt Mikrofoneingabe entgegen, führt Spracherkennung durch und gibt Text aus. Es weiß nicht, welche Anwendung Sie nutzen, was auf Ihrem Bildschirm ist oder welche Dateien auf Ihrer Festplatte liegen. Es kann Ihren Code nicht leaken, weil es nie Zugriff darauf hat.
Ein Tool, das Ihren Bildschirm aufnimmt, hat einen grundlegend anderen Berechtigungsumfang. Es kann alles sehen, was Sie sehen. Es weiß, welchen Editor Sie nutzen, welche Datei geöffnet ist, wie Ihr Projekt aufgebaut ist und was Ihr Terminal ausgibt. All diese Daten müssen irgendwo verarbeitet werden — in der Regel auf einem Cloud-Server.
Die Frage ist nicht, ob das Unternehmen, das diese Daten verarbeitet, vertrauenswürdig ist. Die Frage ist, ob Ihr Code Ihren Rechner überhaupt verlassen sollte. Für die meisten professionellen Entwickler lautet die Antwort: Nein.
So prüfen Sie es selbst
Falls Sie unsicher sind, was Ihr aktuelles Sprachtool tut, gibt es einfache Wege zur Überprüfung:
App-Berechtigungen prüfen. Unter macOS gehen Sie zu Systemeinstellungen, dann Datenschutz & Sicherheit, dann Bildschirmaufnahme. Jede App, die Ihren Bildschirm aufnimmt, muss in dieser Liste mit erteilter Berechtigung erscheinen. Wenn Ihr Sprachtool hier gelistet ist, hat es Bildschirmaufnahme-Zugriff.
Netzwerkaktivität beobachten. Nutzen Sie die Netzwerk-Ansicht der Aktivitätsanzeige oder ein Tool wie Little Snitch, um ausgehende Verbindungen Ihres Sprachtools zu beobachten. Ein Tool, das Audio lokal verarbeitet, sollte während der Transkription keinerlei Netzwerkverbindungen herstellen. Wenn Sie sehen, dass Daten an externe Server gesendet werden, verlassen Ihre Audio- oder Bildschirmdaten Ihren Rechner.
Datenvolumen prüfen. Reine Audioverarbeitung erzeugt relativ geringe Datenmengen (falls überhaupt). Screenshot-Daten sind erheblich größer. Ungewöhnlich hoher Bandbreitenverbrauch eines Sprachtools ist ein starkes Indiz dafür, dass mehr als Audio übertragen wird.
Die lokale Alternative
SpeakUp verarbeitet alles auf Ihrem Mac. Es nutzt whisper.cpp auf Ihrer GPU mit Metal-Beschleunigung. Audio rein, Text raus. Die Anwendung hat keine Bildschirmaufnahme-Berechtigung, keinen Dateisystemzugriff über den eigenen Container hinaus und keine Netzwerkfähigkeit. Sie stellt keinerlei ausgehende Verbindungen her — überprüfbar mit jedem Netzwerkmonitor.
SpeakUp weiß nicht, welche Anwendung Sie nutzen. Es weiß nicht, welche Datei in Ihrem Editor geöffnet ist. Es kann Ihren Code, Ihr Terminal und Ihre Umgebungsvariablen nicht sehen. Das ist keine Unternehmensrichtlinie, die sich in einem zukünftigen Update ändern könnte — es ist eine architektonische Beschränkung. Die Anwendung hat schlicht nicht die Fähigkeit, Ihren Bildschirm aufzunehmen oder zu übertragen.
Für Entwickler, die an proprietärem Code arbeiten, ist dieser Unterschied keine Feature-Präferenz. Er ist eine Sicherheitsanforderung.
Weiterführende Seiten: Datenschutz-Architektur · SpeakUp vs Wispr Flow · Spracherkennung für Vibe Coders