Schwerpunkte

Paulas Nachrichten

Wer spricht denn jetzt da eigentlich?

28.08.2021 05:30, Von Mariana Friedrich — Artikel ausdrucken E-Mail verschicken

Auf der Straße lassen wir uns oft von ihren Stimmen leiten: Navigations-Systeme in Autos oder etwa Handys führen uns ans Ziel.

KARLSRUHE. „Sie haben Ihr Ziel erreicht“: Das verkünden manche Auto-Navis, wenn sie uns zur richtigen Adresse geleitet haben. Auch wenn du dich in einer Stadt noch nicht auskennst, hilft dir eine Navigations-App, den richtigen Weg zu finden. Da fragst du das Telefon, wie du zu einem Ort kommst, und die Stimme erklärt, wo du langlaufen sollst.

Aber wie kommt diese Stimme ins Navi? Muss dafür ein Mensch all die Sätze und Wegbeschreibungen aufnehmen? Die meisten Navigations-Apps und Sprachassistenten nutzen heute mit dem Computer erstellte künstliche Stimmen. Damit die das Richtige sagen, wird eine Technik eingesetzt, die „Text-to-Speech“ (gesprochen: „text tu spiitsch“) heißt.

Das ist Englisch und bedeutet: Der Text wird in Sprache umgewandelt. Die App sucht also die Wegbeschreibung für dich und wandelt sie in Informationen um, die der Computer vorlesen kann.

Doch das Vorlesen muss ein Computer erst lernen. Alexander Waibel weiß, wie das geht. Der Professor arbeitet unter anderem am Karlsruher Institut für Technologie. Er ist Experte dafür, wie Computer mit Sprache umgehen.

„Wenn wir sprechen, bewegen wir unseren Mund und unsere Stimmbänder, um Töne zu erzeugen, wie bei einem Musikinstrument“, sagt er. Ein Computer kann das nicht.

Man kann aber Töne elektronisch erzeugen. „Damit ein vom Computer gesprochenes A wie ein A klingt, lernt die Maschine mit vielen Ton-Beispielen, welche Töne zu welchem Wort gehören“, erklärt Professor Waibel. „Sie lernt, wann Wortteile kurz, wann sie lang ausgesprochen werden und sogar, wie sie betont werden müssen“, erklärt er.

„Man kann sich das so vorstellen wie ein Kind, das gerade lesen lernt“, sagt Hannah Samland. Sie arbeitet für Google. Die Navigations-App des Unternehmens wird auf vielen Handys verwendet. „So wie die Eltern ihren Kindern die Worte immer wieder vorsagen, lernt auch der Computer, wie ein Wort richtig klingt.“

Der Computer versucht dabei, so gut wie möglich wie ein echter Mensch zu klingen. Damit du die Fragen nicht eintippen musst, muss die Maschine aber auch verstehen, was du gesagt hast. „Dafür lernt der Computer, die Stimme des sprechenden Menschen zu verstehen und in Text zu übersetzen“, erklärt Professor Waibel. Spracherkennung heißt das. „Wenn der Computer das kann, muss er noch lernen, wie er auf die Frage reagieren soll.“ Der Computer sucht, ob er die passende Antwort bereits kennt. Wenn ja, wandelt er diese wieder in Sprache um.

Die Stimme im Handy kommt also meist nicht von einem echten Menschen, sondern einem schlauen Computer, der Lesen und Sprechen gelernt hat.

Paulas Nachrichten