Martin VetterliPräsident der EPFL Lausanne

Sprechende Maschinen gehörten schon immer zum Genre «Science-Fiction». Unsere Smartphones fangen aber erst jetzt an, uns zu «verstehen». Vor kurzem habe ich mir wieder einmal Stanley Kubricks «2001: Odyssee im Weltraum» angeschaut. In dem Film, der bald sein 50-Jahr-Jubiläum feiert, wird die Zukunft der Technik sehr optimistisch porträtiert. HAL, ein übermächtiger Computer, kommuniziert in Gesprächen direkt mit der Crew. Tatsächlich haben Anbieter wie Apple erst kürzlich begonnen, uns eine ähnliche Technik (wie etwa Siri) zur Verfügung zu stellen.

Wie funktioniert Sprache rechnerisch?

Wie bringt man einer Maschine bei, Wörter zu erkennen? Wie so oft, wenn wir eine Maschine entwerfen möchten, die menschliche Fähigkeiten nachahmt, ist der erste Schritt, alles zu vergessen, was wir über menschliche Sprache wissen. Stattdessen müssen wir herausfinden, wie die Sprache «rechnerisch» funktioniert. Sprache ist eine Folge von grundlegenden Toneinheiten, die vom Vokaltrakt erzeugt werden. Gesprochene Wörter bestehen aus aufeinanderfolgenden Toneinheiten. Um ein Wort zu verstehen, müssen wir versuchen, die ihm zugrunde liegenden Toneinheiten zu identifizieren. Das ist ein schwieriger Vorgang, weil einige Toneinheiten, wie etwa Vokale, aufgrund ihrer Tonhöhe analysiert werden müssen. Konsonanten dagegen erkennt man daran, wie der Ton sich mit der Zeit verändert. Bei Menschen erfolgt dieser Schritt im Innenohr.
In Smartphones findet dieser Prozess sofort statt, wenn man mit Siri spricht. Es wird eine Liste möglicher Toneinheiten berechnet, nicht nur ein Ton. Diese Liste wird über die Internetleitung zu einem grossen Server bei Apple geschickt. Dort fängt der interessante Teil an.

Unser Sprachwissen

Schauen wir uns geschriebene Wörter und Buchstaben statt Töne an, um zu zeigen, was als Nächstes passiert. Nehmen wir die Wörter «ZEIT» und «Welt». Diese Wörter können Sie bestimmt einfach lesen, auch wenn Sie bei genauerem Hinschauen feststellen, dass das grosse «I» in «ZEIT» und das kleine «l» in «Welt» fast identisch sind! Im Zusammenhang mit den anderen Buchstaben können Sie aber einfach herausfinden, welche Buchstaben gemeint sind («Weit» mit «i» wäre ja ein ganz anderes Wort als «Welt» mit «l» und würde nicht passen). Die beiden Möglichkeiten werden also aufgrund unseres vorhandenen Sprachwissens bewertet und die Wörter korrekt identifiziert.

Unsere Smartphones fangen aber erst jetzt an, uns zu «verstehen».

Foto: Getty Images/Science Photo Library RM

Strukturen erkennen

Auf ähnliche Weise können die Wörter zu Sätzen und zu Sinnabschnitten verbunden werden, wobei das vorhandene Wissen immer eine Rolle spielt. Ein komplexes Sprachmodell hilft, bestimmte Strukturen zu erkennen und andere als Unsinn zu verwerfen.
Warum hat es also so lange gedauert, bis diese Maschinen entwickelt wurden? Nun, die Erstellung von Sprachmodellen benötigt riesige Datenmengen. Erst vor kurzem wurde diese Vorgehensweise durchführbar. Zudem sind dafür grosse und schnelle Computer nötig. Deshalb brauchen Sie eine Internetverbindung, um mit Siri zu sprechen (das «Verstehen» findet auf einem externen Server statt). Nach all den Jahren nähern wir uns dem Niveau von HAL aus dem berühmten Film – allerdings ein wenig später als 2001.

Externe Inhalte

Möchtest du diesen ergänzenden Inhalt (Tweet, Instagram etc.) sehen? Falls du damit einverstanden bist, dass Cookies gesetzt und dadurch Daten an externe Anbieter übermittelt werden, kannst du alle Cookies zulassen und externe Inhalte direkt anzeigen lassen.

Professor Vetterli erklärt Wie funktioniert Spracherkennung?

Wie funktioniert Sprache rechnerisch?

Unser Sprachwissen

Strukturen erkennen

Professor Vetterli erklärt
Wie funktioniert Spracherkennung?