Sprache zu Text

September 2020 | rk

Die neue Audio-Export-Funktion in Yasla Pro/Lab 3.4 hat einen etwas ungewöhnlichen Hintergrund: Bei einem Gespräch mit Nutzern kam die Frage auf, ob es möglich wäre, in Yasla eine Spracherkennung zu integrieren. Hintergrund war, Übersetzungen in Lautsprache nicht-hörenden Dozenten für Korrektur u.ä. zugänglich zu machen. Zeit für ein paar Recherchen und Tests.

Offline vs. Online

Die verfügbaren Spracherkennungssysteme zerfallen grob in zwei Lager: Systeme, bei welchen die Erkennung auf dem lokalen Rechner geschieht (‘offline’ oder ‘on device’), und solchen, bei denen die Sprachaufnahmen an die Server eines Dienstleisters geschickt werden (‘online’).

Stand der Technik sind derzeit die Online-Systeme; die großen Datenmengen, die bei diesen für das Training gesammelt werden, schlagen sich deutlich in der Erkennungsleistung nieder. Die Resultate der Offline-Systeme sind für meine Begriffe nach derzeitigem Stand nicht wirklich brauchbar; selbst bei professioneller Audioqualität der Aufnahmen fehlen Wörter, es gibt viele Fehlererkennung etc.

Die Online-Systeme sind qualitativ besser; ob sie ausreichend gut für einen sinnvollen Einsatz sind, kann aber bezweifelt werden. Sie sind aber aus anderer Sicht problematisch:

alle Online-Systeme haben Beschränkungen: Apples System erlaubt nur Audiodaten von max. einer Minute Dauer. Googles System ist nur für kleine Audiomengen kostenfrei, bei regelmäßiger Nutzung und/oder größeren Audiodateien fallen - teils erhebliche - Kosten an.
die Übersetzung benötigt Zeit, es entstehen spürbare Wartezeiten. Je nach System ist läuft die Erkennung zwar schneller als in Realzeit, aber nicht um Größenordnungen: Eine zehnminütige Aufnahme benötigt z.B. i.d.R. mehrere Minuten für die Spracherkennung
für die Nutzung in der Lehre dürfte die rechtliche Situation schwierig sein: Die Übermittlung von Sprachaufnahmen Dritter an meist US-amerikanische Unternehmen ist datenschutzrechtlich - völlig zu Recht - ein No-Go.

Hinzu kommt ein strukturelles Problem: Da es sich um die Übersetzung einer Übersetzung handelt, ist im Falle eines Fehlers nicht unbedingt einfach ersichtlich, wer diesen gemacht hat: Der oder die Studierende bei der ersten, oder das Spracherkennungssystem bei der zweiten Übersetzungen?

Fazit

Auch wenn die Technik derzeit noch nicht reif scheint für eine sinnvolle Integration in Yasla bleibt die Idee spannend.
Mit der neuen Funktion zum direkten Export von Audio-Dateien in Yasla Pro/Lab 3.4 ist es einfacher, Spracherkennungssysteme und -dienste selbst auszuprobieren. Viel Spaß beim Experimentieren!

zurück