Maschinelles Lernen verbessert die Transkriptionsfunktionen für Arabisch

0
13
Maschinelles Lernen verbessert die Transkriptionsfunktionen für Arabisch

Dank der Fortschritte in der Sprach- und Sprachverarbeitung besteht die Hoffnung, dass Sie eines Tages Ihren virtuellen Assistenten fragen können, was die beste Zutat für Macht ist. Derzeit ist es möglich, Ihr Heimgerät aufzufordern, Musik abzuspielen, oder es mit einem Sprachbefehl zu öffnen, eine Funktion, die bereits in einigen Geräten vorhanden ist.

Wenn Sie marokkanisch, algerisch, ägyptisch, sudanesisch oder einen der anderen arabischen Dialekte sprechen, die sich von Region zu Region stark unterscheiden und einige füreinander unverständlich sind, ist das eine andere Geschichte. Wenn Ihre Muttersprache Arabisch, Finnisch, Mongolisch, Navajo oder eine andere Sprache mit hoher morphologischer Komplexität ist, fühlen Sie sich möglicherweise ausgeschlossen.

Diese komplexen Strukturen weckten bei Ahmed Ali die Neugier, eine Lösung zu finden. Er ist leitender Ingenieur der Arabic Language Technologies Group am Qatar Computing Research Institute (QCRI) – Teil der Hamad Bin Khalifa University der Qatar Foundation und Gründer von ArabicSpeech, „einer Gemeinschaft, die zum Nutzen der Sprachwissenschaften und arabischen Sprachtechnologien existiert“.

Hauptsitz der Qatar Foundation

Ali wurde vor einigen Jahren bei IBM von der Idee fasziniert, mit Autos, Geräten und Gadgets zu sprechen. „Können wir eine Maschine bauen, die verschiedene Dialekte versteht – einen ägyptischen Kinderarzt, der ein Rezept automatisiert, einen syrischen Lehrer, der Kindern hilft, die wesentlichen Teile des Unterrichts zu bekommen, oder einen marokkanischen Koch, der das beste Couscous-Rezept verschreibt?“ erklärt. Die Algorithmen, die diese Maschinen antreiben, können jedoch die fast 30 Arten von Arabisch nicht durchsuchen, geschweige denn verstehen. Heutzutage funktionieren die meisten Spracherkennungstools nur in Englisch und einer Handvoll anderer Sprachen.

Die Coronavirus-Pandemie hat zu einer bereits starken Abhängigkeit von Sprachtechnologien geführt, da die Art und Weise, wie Technologien zur Verarbeitung natürlicher Sprache Menschen dabei helfen, die Richtlinien für den Aufenthalt zu Hause und die Maßnahmen zur physischen Distanzierung einzuhalten. Während wir jedoch Sprachbefehle verwendet haben, um E-Commerce-Käufe zu erleichtern und unser Zuhause zu verwalten, hält die Zukunft mehr Anwendungen bereit.

Millionen von Menschen auf der ganzen Welt nutzen Open Online Courses (MOOC) für offenen Zugang und unbegrenzte Teilnahme. Die Spracherkennung ist ein zentrales Feature des MOOC, bei dem Studierende gezielt in den gesprochenen Inhalten von Lehrveranstaltungen suchen und Übersetzungen über Untertitel ermöglichen können. Die Sprachtechnologie ermöglicht die Digitalisierung von Vorlesungen, um gesprochene Wörter als Text in Universitätsklassenzimmern anzuzeigen.

Ahmed Ali Hamad Bin Khalifa Universität

Laut einem kürzlich erschienenen Artikel in Speech Technology wird der Markt für Sprach- und Spracherkennung bis 2025 voraussichtlich 26,8 Milliarden US-Dollar erreichen, da Millionen von Verbrauchern und Unternehmen auf der ganzen Welt auf Sprachroboter angewiesen sind, nicht nur, um mit ihren Geräten oder Fahrzeugen zu interagieren, sondern auch, um sich zu verbessern Kundenservice, Innovationen im Gesundheitswesen vorantreiben und die Zugänglichkeit und Inklusion für Menschen mit Hör-, Sprach- oder Bewegungsbehinderungen verbessern.

In einer Umfrage von 2019 prognostizierte Capgemini, dass bis 2022 mehr als zwei von drei Verbrauchern Sprachassistenten wählen werden, anstatt Geschäfte oder Bankfilialen aufzusuchen; Ein Anteil, der angesichts des physisch entfernten Wohn- und Handelslebens, das die Pandemie der Welt seit mehr als anderthalb Jahren auferlegt, berechtigterweise steigen könnte.

Diese Geräte haben es jedoch nicht geschafft, große Teile der Welt zu erreichen. Für diese 30 Arten von Arabisch und Millionen von Menschen ist dies eine weitgehend verpasste Gelegenheit.

Arabisch für Maschinen

Englisch oder Französisch sprechende Sprachroboter sind alles andere als perfekt. Es ist jedoch aus mehreren Gründen besonders schwierig, Maschinen Arabisch beizubringen. Dies sind drei allgemein bekannte Herausforderungen:

  1. Keine diakritischen Zeichen. Arabische Dialekte sind umgangssprachliche Dialekte, wie in der hauptsächlich gesprochenen Sprache. Der größte Teil des verfügbaren Textes ist ohne Schrift, was bedeutet, dass ihm Akzente wie Akut (´) oder Algebra (`) fehlen, die die phonetischen Werte von Buchstaben angeben. Daher ist es schwierig zu bestimmen, wohin die Vokale gehen.
  2. Mangel an Ressourcen. Es gibt einen Mangel an aufgeschlüsselten Daten für die verschiedenen arabischen Dialekte. Insgesamt fehlen ihnen die einheitlichen Rechtschreibregeln, die bestimmen, wie eine Sprache geschrieben wird, einschließlich Grammatik oder Rechtschreibung, Silbentrennung, Wortumbrüche und Hervorhebung. Diese Ressourcen sind für das Training von Computermodellen unerlässlich, und die Tatsache, dass es nur wenige davon gibt, hat die Entwicklung der arabischen Spracherkennung behindert.
  3. morphologische Komplexität. Arabische Sprecher beschäftigen sich mit viel Code-Switching. In den von den Franzosen kolonisierten Gebieten zum Beispiel – Nordafrika, Marokko, Algerien und Tunesien – enthalten die Dialekte viele französische Lehnwörter. Somit gibt es eine große Anzahl sogenannter Wörter außerhalb des Vokabulars, die Spracherkennungstechnologien nicht verstehen können, da diese Wörter nicht arabisch sind.

“Aber das Feld bewegt sich blitzschnell”, sagt Ali. Es ist eine gemeinsame Anstrengung mehrerer Forscher, um es schneller voranzutreiben. Das Ali Lab for Arabic Language Technology leitet das Arabic Discourse Project, um arabische Übersetzungen und die indigenen Dialekte jeder Region zusammenzuführen. Arabische Dialekte können beispielsweise in vier regionale Dialekte unterteilt werden: Nordafrikanisch, Ägyptisch, Golf und Levantin. Da Dialekte jedoch keinen Grenzen entsprechen, kann dies so genau sein wie ein Dialekt für jede Stadt; Ein ägyptischer Muttersprachler kann beispielsweise den alexandrinischen Dialekt von seinem Landsmann aus Assuan (1000 km Entfernung auf der Karte) unterscheiden.

Aufbau einer technisch versierten Zukunft für alle

Zu diesem Zeitpunkt sind die Maschinen genauso genau wie menschliche Kopierer, zum großen Teil dank der Fortschritte bei tiefen neuronalen Netzen, einem Teilgebiet des maschinellen Lernens in der künstlichen Intelligenz, das auf Algorithmen beruht, die von der biologischen und funktionalen Funktionsweise des menschlichen Gehirns inspiriert sind. Bis vor kurzem war die Spracherkennung jedoch insgesamt ziemlich kompromittiert. Die Technologie hat sich in der Vergangenheit auf verschiedene Module für die phonemische Modellierung, den Aufbau von Sprachwörterbüchern und die Sprachmodellierung verlassen. Alle Einheiten müssen separat trainiert werden. In jüngerer Zeit trainierten Forscher Modelle, die Audiofunktionen direkt in Transkriptionen umwandeln und potenziell alle Teile für die endgültige Aufgabe optimieren.

Trotz dieser Entwicklungen ist Ali immer noch nicht in der Lage, den meisten Geräten Sprachbefehle in seiner Muttersprache Arabisch zu geben. “Es ist 2021”, kommentiert er, “und ich kann immer noch nicht mit vielen Maschinen in meiner Sprache sprechen.” “Ich meine, jetzt habe ich ein Gerät, das mein Englisch verstehen kann, aber die automatische Erkennung der arabischen Sprache mit mehreren Dialekten ist noch nicht erfolgt.”

Dies zu erreichen, ist der Schwerpunkt von Alis Arbeit, die in dem ersten Konverter gipfelte, der die arabische Sprache und ihre Dialekte lernte; Was bisher eine beispiellose Leistung erbracht hat. Diese Technologie namens QCRI Advanced Transcription System wird derzeit von Al Jazeera, DW und BBC verwendet, um Inhalte online zu transkribieren.

Es gibt mehrere Gründe, warum es Ali und seinem Team heute gelungen ist, diese Sprach-Engines zu bauen. In erster Linie sagt er: “Es ist notwendig, die Ressourcen über alle Dialekte hinweg bereitzustellen. Wir müssen die Ressourcen aufbauen, damit wir das Modell dann trainieren können.” Fortschritte in der Computerverarbeitung führen dazu, dass jetzt rechenintensives maschinelles Lernen in der GPU stattfindet, die komplexe Grafiken schnell verarbeiten und rendern kann. Wie Ali sagt: „Wir haben eine großartige Architektur, gute Module und wir haben Daten, die die Realität repräsentieren.“

Forscher von QCRI und Kanari AI haben kürzlich Modelle entwickelt, die bei der Übertragung arabischer Nachrichten menschliche Parität erreichen können. Das System zeigt die Auswirkungen der Übersetzung der täglichen Berichte von Al Jazeera auf dem Bildschirm. Während die menschliche Fehlerquote im Englischen (HER) bei etwa 5,6% liegt, haben Untersuchungen gezeigt, dass die arabische HER aufgrund der morphologischen Komplexität der Sprache und des Fehlens einer Standardorthographie in arabischen Dialekten deutlich höher ist und 10% erreichen kann. Dank der jüngsten Fortschritte im Bereich Deep Learning und End-to-End-Engineering konnte die arabische Spracherkennungs-Engine Muttersprachler in Nachrichtensendungen übertreffen.

Während die Spracherkennung in Modern Standard Arabic gut zu funktionieren scheint, testen Forscher von QCRI und Kanari AI die Grenzen der Dialektverarbeitung und erzielen beeindruckende Ergebnisse. Da im Haus niemand modernes Standardarabisch spricht, müssen wir auf den Dialekt achten, damit unsere Sprachassistenten uns verstehen.

Dieser Inhalt wurde vom Qatar Computing Research Institute der Hamad Bin Khalifa University, einem Mitglied der Qatar Foundation, verfasst. Es wurde nicht von der Redaktion des MIT Technology Review verfasst.

LEAVE A REPLY

Please enter your comment!
Please enter your name here