Bei Google dreht sich dieser Tage viel um Spracherkennung: So wurde zum Beispiel mit dem Update auf Android 4.2 Jelly Bean der Service Google Now verbessert und seit gestern ist Google’s Such-App, die sprachgesteuerte Befehle unterstützt, auch für iOS-Geräte verfügbar. Beide greifen bei ihrer Arbeit auf den „Knowledge Graph“ zurück, der für mehr als 500 Millionen Objekte wie bekannte Personen Daten sammelt und diese in ein Verhältnis zu anderen Informationen setzt.
Doch nach wie vor hapert es bei der Spracherkennung und der Fähigkeit, Worten einen Kontext zuzuweisen. Um dies weiter zu verbessern hat Google’s Forschungs-Team nun die Ergebnisse eines Sprach-Modells veröffentlicht, das vor allem mit anonymisierten Google-Anfragen und der wachsenden Datenmenge im Internet gefüttert wurde.
Sprach-Modell reduziert Fehlerquoten
Neue Stellenangebote
Content Creator Social Media (m/w/d) Erlebnisbauernhof Gertrudenhof GmbH in Hürth |
||
Studentisches Praktikum – Video- & Social-Media-Marketing im Bankwesen (m/w/d) Taunus Sparkasse in Bad Homburg vor der Höhe |
||
Social Media Manager (m/w/d) NordwestLotto Schleswig-Holstein GmbH & Co. KG in Kiel |
So wird mit Hilfe des Sprach-Modells beispielsweise die Wahrscheinlichkeit des nächsten Wortes berechnet. Der Satz „Kannst du mir die Butter…“ wird vermutlich eher mit dem Wort „geben“ als mit „heben“ enden, obwohl sich beide ähnlich anhören und von einer Spracherkennungs-Software durchaus verwechselt werden dürften. Diese zunächst simple Erkenntnis konnten Google-Forscher nun mit Hilfe des „N-Gramm-Ansatzes“ beweisen und optimieren. Dabei wird die Wahrscheinlichkeit des folgenden Wortes basierend auf den vorherigen n-1 Wörtern berechnet. In einem Test mit 230 Billionen Wörtern und einem Vokabular von einer Millionen Wörtern wurden die Fehlerquoten bei der Worterkennung und des Suchergebnisses nun um bis zu 10 % reduziert.
Neben der Such-App soll auch die „Speech-to-Text“-Übersetzung bei YouTube von den Erkenntnissen profitieren. Im Gegensatz zu Siri geht die Such-App übrigens nicht den Umweg über ein externes Rechenzentrum, sondern analysiert die Sprache direkt auf dem Gerät. Deutlich weiter geht jedoch der Ansatz von Google Now: Kombiniert mit dem Knowledge Graph, persönlichen Daten aus Google Mail und weiteren Daten wie Ort und Zeit soll die semantische Suche möglich werden. Auch wenn das den Datenschützern die Nachtruhe vollständig rauben wird, ich finde den Ansatz sehr interessant.
Ist Google Now das „Next Big Thing“?
Natürlich klappt noch nicht alles reibungslos, doch Google dürfte bei der Weiterentwicklung seines Dienstes die Nase vor Apples Siri und Windows Phone haben. Die schiere Datenmenge, die Google täglich sammelt – sowohl über die Welt als auch die einzelne Person – helfen dem Suchmaschinenkonzern zunehmend, dem gesprochenen Wort eine Bedeutung zuzuweisen und Suchanfragen korrekt zu beantworten. Google Now könnte somit die nächste Killer-Applikation von Google werden.
Während die reguläre Suche seinerzeit rasant an Popularität gewann, weil sie schnellere und bessere Ergebnisse lieferte als die damaligen Wettbewerber, hat Konkurrent Bing inzwischen nahezu aufgeschlossen. Und auch bei der Spracherkennung gibt es momentan eher ein Patt zwischen Apple und Google denn einen eindeutigen Sieger. Mit Google Now könnte sich das wieder ändern.
Hier ist übrigens ein interessantes Video zu Google Now.