Lexika: SpeakUp das Vokabular Ihres Fachgebiets beibringen
SpeakUp kommt mit Alltagssprache gut zurecht. Meetings, E-Mails, Slack-Nachrichten, Tagebucheinträge — das läuft aus dem Stand. Wo es früher ins Straucheln kam, war genau der Moment, in dem Sie etwas gesagt haben, das nur Menschen in Ihrem Fach so sagen. Eine Ärztin, die einen Wirkstoffnamen diktiert. Ein Entwickler, der ein Framework in eine Code-Review streut. Juristische Fachbegriffe, Aktenzeichen, Paragrafen.
<img src="/images/lexicons/lexicons-software-engineering.png" alt="SpeakUp-Einstellungen → Lexika. „Your Library" zeigt das aktive Paket, „Available" listet die übrigen — hinzufügen, wechseln oder entfernen mit einem Klick." loading="lazy">
Seit einigen Monaten arbeiten wir an etwas, das diese Lücke schließt: Lexika. Dieser Beitrag ist ein Zwischenstand — was Lexika sind, was wir bisher veröffentlicht haben und was wir dabei gelernt haben.
Was ein Lexikon ist, in einem Absatz
Ein Lexikon ist eine kostenlose Erweiterung, die SpeakUp das Vokabular eines bestimmten Fachgebiets beibringt. Sie aktivieren es unter Einstellungen → Lexika und es hilft still im Hintergrund bei den Fachbegriffen. Alles läuft weiterhin lokal auf Ihrem Mac — kein Internet, keine Cloud, kein Konto. Und weil ein Lexikon nur dann aktiv wird, wenn Sie in der Sprache diktieren, für die es gebaut wurde, redet es Ihnen bei Alltagssätzen nicht rein.
Wir behandeln jedes Lexikon wie ein eigenes kleines Projekt. Bevor wir eines veröffentlichen, bauen wir eine Testsammlung aus realistischen Sätzen, lassen diese einmal mit und einmal ohne Lexikon durchlaufen und prüfen, ob das Lexikon die Ergebnisse wirklich verbessert — und, mindestens genauso wichtig, ob es irgendwo etwas verschlechtert.
Was wir bisher veröffentlicht haben
Medizin — Deutsch
In dieses Lexikon haben wir bislang die meiste Arbeit gesteckt. Es ist aus drei etablierten Referenzquellen aufgebaut:
- ICD-10-GM (Ausgabe 2026) — die offizielle deutsche Fassung der WHO-Krankheitsklassifikation, herausgegeben vom BfArM (Bundesinstitut für Arzneimittel und Medizinprodukte).
- OPS 2026 — der deutsche Operations- und Prozedurenschlüssel (Eingriffe, Prozeduren, Diagnostik), ebenfalls vom BfArM.
- Deutsches MeSH — die medizinischen Schlagwörter, die in deutschen biomedizinischen Bibliotheken verwendet werden, gepflegt von ZB MED.
Zusammen ergeben sie rund 180.000 deutsche medizinische Begriffe — Diagnosen, Prozeduren, Anatomie, Wirkstoffnamen.
In unserem Testkorpus für medizinisches Deutsch hat das Lexikon rund 15 zusätzliche Fachbegriffe pro 100 diktierten richtig getroffen. Das ist ein deutlicher Sprung — der Unterschied zwischen „meistens korrekt, ab und zu korrigieren" und „dem kann ich vertrauen". Rückmeldung eines Arztes, der SpeakUp einsetzt, passte zu den Zahlen: „Die medizinische Worterkennung läuft im Übrigen über SpeakUp sehr gut."
Zusätzlich haben wir eine sorgfältige Sicherheitsprüfung gemacht. Wir haben 200 Alltagssätze auf Deutsch — Einkaufen, Wetter, Politik, Smalltalk — mit acht verschiedenen deutschen Stimmen aufgenommen, auch mit regionalen Färbungen. Mit aktivem Medizin-Lexikon ist kein einziger dieser Alltagssätze schlechter geworden. Das war die Hürde, die wir vor der Veröffentlichung nehmen wollten: Fachbegriffe verbessern, Alltagssprache nicht beschädigen.
Medizin — Italienisch
Das italienische Medizin-Lexikon, das mit SpeakUp 1.0.26 ausgeliefert wird, ist aus einer anderen Quellenlage entstanden — wir haben die besten frei verfügbaren italienischen Referenzen benutzt, die wir finden konnten:
- ICD-10 italienische Übersetzung — die italienische Fassung der WHO-Krankheitsklassifikation, herausgegeben vom Istituto Superiore di Sanità (ISS), dem italienischen Pendant zum Robert-Koch-Institut.
- AIFA Wirkstoffliste — die offizielle Liste der Arzneimittel-Wirkstoffe (principi attivi) der italienischen Arzneimittelbehörde AIFA.
- AIFA Arzneimittelklassifikation (ATC) — die italienische Version der internationalen Arzneimittelgruppen-Systematik, ebenfalls von AIFA.
Das ergibt rund 17.500 italienische medizinische Begriffe.
Die Verbesserung im italienischen Testkorpus fällt kleiner aus als bei der deutschen Version — etwa 2 bis 3 zusätzliche Fachbegriffe pro 100 diktierten richtig. Das ist ein moderater, aber realer Zugewinn. Er wird sich nicht so dramatisch anfühlen wie die deutsche Version, auch deshalb, weil Whisper (die Erkennungs-Engine, die SpeakUp antreibt) gesprochenes Italienisch ohnehin schon recht gut verarbeitet. Wenn italienische medizinische Dokumentation zu Ihrer täglichen Arbeit gehört, wird dieses Lexikon helfen; bei gelegentlichem italienischen Diktat werden Sie kaum einen Unterschied bemerken.
Software-Entwicklung — Englisch
Entwicklerinnen und Entwickler diktieren eine sehr spezielle Form von Englisch. Framework-Namen, Kommandozeilen-Werkzeuge, Cloud-Dienste, Abkürzungen, die nie zum Aussprechen gedacht waren. „Pydantic" ist für Whisper kein trainiertes Wort — es ist schlicht eine überraschend spezifische Lautfolge.
Bei diesem Lexikon haben wir keine externe Quelle verwendet. Wir haben das Vokabular von Hand aufgebaut — rund 1.000 Begriffe aus Werkzeugen, Programmiersprachen und Konzepten, die in Code-Reviews, Commit-Messages und Entwickler-Chats vorkommen. Git, Kubernetes, SQL-Dialekte, JavaScript-Frameworks, Infrastructure-as-Code-Namen, der übliche Akronym-Dschungel.
Im Testkorpus hat das Lexikon rund 4 zusätzliche Fachbegriffe pro 100 diktierten richtig getroffen. Kleiner als der Sprung beim deutschen Medizin-Lexikon, aber für jemanden, der eine Pull-Request-Beschreibung oder ein Code-Review diktiert, ist das der Unterschied zwischen „Hetzner muss ich dreimal pro Woche von Hand korrigieren" und „daran denke ich gar nicht mehr".
Was wir (noch) nicht veröffentlicht haben
Wir haben auch ein englisches Medizin-Lexikon gebaut — aus ICD-10-CM und der englischen MeSH-Version, rund 247.000 Begriffe. Wir haben es genauso getestet wie die anderen.
Das Ergebnis war eine kleine Überraschung: Auf Englisch erkennt Whisper schon von Haus aus über 93 von 100 medizinischen Fachbegriffen korrekt. Unser Lexikon hat das nur um einen Bruchteil eines Prozents verbessert — bei gleichzeitig kleineren Verschlechterungen an anderer Stelle. Die verbleibenden 6% Fehler waren eine spezielle Sorte, die ein Wörterbuch nicht reparieren kann — es sind selbstbewusste Fehlhörungen („denosumab" wird zu „Dinosumab"), keine Wortwahl-Patzer.
Also haben wir es zurückgehalten. Ein Lexikon ist es nur wert, veröffentlicht zu werden, wenn es für die meisten Nutzerinnen und Nutzer klar eine Verbesserung bringt — und in diesem Fall tat es das nicht. Die Genauigkeit bei englischer medizinischer Sprache ist ein schwierigeres Problem, das wir später mit einem anderen Ansatz angehen werden.
Das ist das Prinzip, an dem wir festhalten wollen: Ein Lexikon erscheint, wenn es klar hilft — und wird übersprungen, wenn nicht.
So probieren Sie eines aus
Öffnen Sie SpeakUp → Einstellungen → Lexika. Wählen Sie dasjenige, das zu Ihrer Arbeit passt. Aktivieren Sie es. Diktieren Sie wie gewohnt. Das ist die gesamte Einrichtung.
Wenn Sie in mehreren Sprachen diktieren, sehen Sie einen kleinen Hinweis, sobald ein Lexikon an eine Sprache gebunden ist, die Sie noch nicht aktiviert haben — es hält sich still, bis Sie diese Sprache unter Allgemein → Sprachen hinzufügen. Das ist bewusst so: Ein italienisches Medizin-Lexikon soll nicht versuchen, in Ihr englisches Diktat hineinzureden.
Lexika sind kostenlos. Sie sind in SpeakUp enthalten und werden es immer sein.
Woran wir als Nächstes arbeiten
Mehrere Stränge sind offen:
- Verfeinerung des deutschen Medizin-Lexikons — wir stoßen immer wieder auf Fachbegriffe, die in den offiziellen Referenzen nicht auftauchen, aber in der klinischen Dokumentation gesprochen werden. Die sammeln wir und ergänzen sie vorsichtig.
- Ein besserer Ansatz für englisches Medizinvokabular — da ein Wörterbuch hier nicht hilft, schauen wir uns Verfahren an, die auf der Spracherkennungsebene selbst ansetzen. Dazu gibt es demnächst einen eigenen Beitrag.
- Ein juristisches Lexikon — Aktenzeichen, Gerichtsverfahren-Vokabular, Gesetzesbezeichnungen. Noch in der Recherchephase.
- Eigene Begriffe durch Nutzer — eine Möglichkeit, eigenes Fachvokabular hinzuzufügen (Mandantennamen, Produktnamen, interne Abkürzungen), ohne auf ein offizielles Lexikon von uns warten zu müssen. Das ist der Punkt, auf den wir uns am meisten freuen.
Wenn Sie ein Fachgebiet haben, für das Sie ein Lexikon sehen möchten, oder wenn Sie auf ein bestimmtes Wort gestoßen sind, das SpeakUp hartnäckig falsch erkennt, schreiben Sie uns eine E-Mail. Unsere Entscheidungen darüber, welche Lexika wir bauen, orientieren sich an dem, was unsere Nutzerinnen und Nutzer tatsächlich diktieren — nicht daran, was sich gut auf einer Marketing-Folie macht.
Danke fürs Lesen. Wenn Sie schon auf 1.0.26 sind, warten die neuen Lexika in den Einstellungen auf Sie. Falls nicht, hier ist die aktuelle Version.