Highlight

Những điều thú vị khi dùng Trí tuệ nhân tạo của Viettel

Những người dùng Internet tại Việt Nam thường lấy “chị Google” ra để… giải trí. Khi “chị” đọc văn bản hay chỉ đường cho người tham gia gi...

Saturday, October 22, 2016

Computer spitzen die Ohren

Microsoft berichtet von einem Durchbruch im Bereich der automatischen Spracherkennung.
Roboter sind die besseren Zuhörer. (Bild: PD)

Microsoft will bei der automatischen Spracherkennung einen Durchbruch erzielt haben. In einem wissenschaftlichen Aufsatzbeschreiben Mitarbeiter von Microsoft Research ein System, das einer Konversation zwischen Menschen so gut folgen kann wie ein Mensch.
«Wir haben es geschafft, mit dem Menschen gleichzuziehen, das ist eine historische Grosstat», schreibt in einem Blog Xuedong Huang der bei Microsoft die computerlinguistische Forschung leitet. «Für mich ist ein Traum wahr geworden.» Huang arbeitet seit mehr als 30 Jahren an der Entwicklung von Software für die automatische Spracherkennung.

Erfolge nach langer Stagnation

Bereits in den 1950er Jahren beschäftigen sich Forscher der amerikanischen Bell Labs mit der automatischen Erkennung von gesprochener Sprache. In den 1970er Jahren begann innerhalb des amerikanischen Verteidigungsministeriums die Advanced Research Projects Agency (Arpa), grosse Geldsummen in Speech Understanding Research zu investieren. In den 1980er Jahren kamen von Firmen wie Dragon Systems, Kurzweil, Verbex oder Voice Processing Corp. erste kommerzielle Produkte auf den Markt. Doch auch noch Ende der 1990er Jahre konnte Software zur Erkennung von gesprochener Sprache sich nur in Nischen halten. Die Software war teuer, sie musste trainiert werden, sie beherrschte nur einen kleinen Wortschatz, sie liess sich nur in ruhigen Räumen benutzen und setzte eine überdeutliche, langsame Sprechweise voraus.
Xuedong Huang vor einer Foto mit Bill Gates (Bild: Scott Eklund/Microsoft)

Xuedong Huang vor einer Foto mit Bill Gates (Bild: Scott Eklund/Microsoft)

Als begeisterter Fürsprecher der Spracherkennung trat der Microsoft-Gründer Bill Gates in Erscheinung. Er glaubte, dass nichts besser als die gesprochene Sprache Mensch und Computer einander näherbringen könnte. Er sorgte dafür, dass sich in der Forschungsabteilung von Microsoft einige der besten Wissenschafter intensiv mit dem Thema beschäftigten. Anlässlich einer wissenschaftlichen Konferenz kurz vor Weihnachten 2009 im kanadischen Wintersportort Whistler liessen sich Microsoft-Mitarbeiter durch Wissenschafter der University of Toronto überzeugen, künstliche neuronale Netzwerke auszuprobieren. Die Resultate waren sehr gut. Richard Rashid, der damalige Forschungschef von Microsoft, bezeichnete in einem Blog-Beitrag den neuen Ansatz als Durchbruch: Nach 30 Jahren Stagnation gebe es jetzt eine «dramatische Veränderung» zu vermelden.
In einem wissenschaftlichen Aufsatz, den Forscher von Microsoft und der University of Toronto gemeinsam mit Kollegen von Google und IBM2012 publizierten, werden die Verbesserungen, die dank neuronalen Netzwerken bei der Spracherkennung möglich sind, als «signifikante» beschrieben. Bei einem vom amerikanischen National Institute of Standards and Technology (Nist) konzipierten, Switchboard genannten Testverfahren, das rund 2500 Telefonkonversationen von 500 verschiedenen Menschen zur Verfügung stellt, konnte Microsoft zwischen 2009 und 2012 die Fehlerrate von 23 auf 13 Prozent reduzieren. Es geht bei diesen Tests nicht darum, Sprache zu «verstehen», sondern nur, einer gesprochen Lautfolge Buchstaben zuzuordnen.

Mit ein bisschen Hilfe aus der Schweiz

Jetzt konnten Microsoft-Forscher die Fehlerraten erneut reduzieren. Die Verbesserungen verdanken sich teilweise einem Long short-term memory (LSTM) genannten Ansatz beim Aufbau von neuronalen Netzen. Das LSTM-Konzept wurde von Jürgen Schmidhuber an derUniversität Lugano entwickelt.
Die Microsoft-Forscher haben Telefongespräche aus dem Nist-Korpus von professionellen Schreibkräften transkribieren lassen. Je nach Art des Gesprächs wurde eine Fehlerrate von 5,9 oder 11,3 Prozent erreicht. Die Software brachte es auf 5,9 und 11,1. Es gilt dabei aber zu beachten, dass die Fehlerrate bei den Menschen stark variiert. Die Schreibkräfte sind in der Lage, je nach Anwendungsfall verschiedene Qualitätsniveaus zu anzusteuern. Die Schreibkräfte wussten beim Abschreiben der Nist-Gespräche nicht, wofür die Transkriptionen benötigt wurden.
Es ist deshalb gewagt, zu behaupten, dass die Software die Fähigkeiten von Menschen egalisieren könne. Trotzdem darf festgehalten werden, dass Microsoft bei der automatischen Spracherkennung einmal mehr bedeutende Verbesserungen erzielt hat. Als nächstes möchten die Microsoft-Forscher Software entwickeln, die gesprochene Sprache nicht nur verschriftlichen, sondern auch verstehen kann.

No comments:

Post a Comment