24. Februar 2021 – Interview

«Klar kann ein maschinelles Übersetzungssystem Lyrik übersetzen»

«Egal, was noch passieren wird, Maschinen werden nie zu Menschen werden – und Menschen auch nicht zu Maschinen.»

Samuel Läubli ist Computerlinguist und entwickelt mit seiner Firma TextShuttle maschinelle Übersetzungssysteme. Im Interview erklärt er, was maschinelle Übersetzung kann und was nicht, und wieso sie eine Chance für Übersetzerinnen und Übersetzer ist.

Wie erklärst du einem Laien, was bei einer neuronalen maschinellen Übersetzung passiert?

Das ist eine schwer zu beantwortende Frage, weil die technischen Vorgänge unglaublich komplex sind. Im Wesentlichen ist ein neuronales maschinelles Übersetzungssystem ein Programm, das basierend auf bestehenden Humanübersetzungen lernt, von einer Sprache in eine andere zu übersetzen. Erst wenn das System trainiert wird, kann es nach und nach mit immer höherer Wahrscheinlichkeit berechnen, welches Wort aus der Ausgangssprache einem Wort in der Zielsprache entspricht.

Man liest, dass maschinelle Übersetzung in den letzten Jahren immer besser geworden ist. Was ist der Grund dafür?

Die grosse Neuerung ist der Einsatz von neuronalen Netzen. Das ist das Modell, das hinter den massiven Verbesserungen der letzten Jahre steckt. Der eigentliche Unterschied in der Übersetzung ist, dass neuronale Übersetzungssysteme im Vergleich zur Vorgängertechnologie ganze Sätze berücksichtigen können und dadurch viel flüssiger übersetzen. Bei den statistischen Systemen, die früher eingesetzt wurden, konnten jeweils Sequenzen von drei bis sieben Wörtern übersetzt werden. Das führte dazu, dass längere Sätze holprig klangen.

Aber das heisst auch, dass der Kontext ausserhalb eines Satzes nach wie vor nicht berücksichtigt werden kann…

Genau. Die heutigen Systeme arbeiten immer noch nur auf der Satzebene, was bei kontextuellen Bezügen innerhalb eines Dokuments immer wieder zu Fehlern führt. Streng gesehen ist ein maschinell übersetzter Text heute eine Sequenz von maschinell übersetzten Sätzen. Am Übersetzen von ganzen Dokumenten wird aber intensiv geforscht. Bald wird es Systeme geben, die mehr als nur einzelne Sätze übersetzen können.

Ein neuronales Netz ist eine künstliche Intelligenz. Wie intelligent sind solche Systeme wirklich?

Ich mag den Begriff „künstliche Intelligenz“ überhaupt nicht. Ich halte ihn für problematisch und irreführend. Diese Systeme sind eigentlich sehr einfältig. Mein Mentor Martin Volk illustrierte das jeweils an einem Beispiel:

„This sentence contains 32 characters“

„Dieser Satz enthält 32 Buchstaben“

Auf den ersten Blick eine perfekte Übersetzung. Wo liegt der Fehler?

Das System kann nicht über den Inhalt des Satzes reflektieren und erkennen, dass der deutsche Satz nicht gleich viele Buchstaben enthält wie der englische. Die Systeme sind lediglich sehr gut darin, das zu imitieren, was ihnen gezeigt wird. Darum sind auch die Trainingsdaten so wichtig. Wenn ich das System mit qualitativ minderwertigen Übersetzungen füttere, wird es auch nicht gut übersetzen.

Sind die qualitativen Unterschiede bei verschiedenen Sprachkombinationen gross?

Ja, das sind sie. Oft glauben die Leute, es sei schwieriger, ein System für zwei Sprachen zu bauen, die sich besonders stark unterscheiden, etwa für Deutsch und Chinesisch. Aber das ist kein Problem. Solange es genügend gute Humanübersetzungen gibt, die ich als Trainingsdaten verwenden kann, kann ich auch ein gutes System entwickeln. Bei Sprachen, wo es nur wenige Übersetzungen gibt, ist es nach heutigem Stand schwieriger. Es wird aber intensiv an der Entwicklung von besseren Systemen für kleine Sprachen geforscht, und es sind bereits Fortschritte erkennbar. Die maschinelle Übersetzung wird sich auch bei diesen Sprachen verbessern.

Wo liegen die Stärken eines gut trainierten Systems?

Wenn man auf der Satzebene die inhaltliche Korrektheit analysiert, sind die heutigen Systeme schon sehr gut. Natürlich wird man, je nachdem wie penibel man ist, immer etwas finden; einen Satz, der noch runder sein könnte oder ein Wort, das vom Register her nicht perfekt passt. Aber gute Systeme kommen heutzutage einer Humanübersetzung in vielen Bereichen schon sehr nahe und erlauben so eine grosse Produktivitätssteigerung.

Und was sind die Schwächen?

Probleme gibt es vor allem bei Bezügen, die über die Satzgrenzen hinausgehen, dort gibt es zwangsläufig viele Fehler. Darüber hinaus ist die fehlende Kontrollierbarkeit die grösste Schwäche. Ich kann heute einem System kaum Vorgaben machen; beispielsweise, dass es aus einer bestimmten Satzkonstruktion in der Ausgangssprache in der Zielsprache einen Passiv-Satz machen soll. Das System übersetzt einfach. Es kann auch sein, dass das System ein bestimmtes linguistisches Phänomen einmal perfekt übersetzt und dann bei einem nächsten Mal, wenn etwas leicht anders ist, einen Fehler macht. Warum das passiert, weiss man nicht genau. Wir können es weder steuern noch kontrollieren. Es wird aber auch in diesem Bereich viel geforscht, um eine bessere Kontrollierbarkeit zu erreichen. DeepL hat vor Kurzem eine Funktion eingeführt, bei der man auswählen kann, ob das System duzen oder siezen soll. Das ist erst ein kleiner Schritt, aber auf diesem Gebiet sehe ich noch viel Potenzial.

Ist es nicht ein grosses Problem, dass diese Systeme mit Millionen von Texten gefüttert werden, die unter Umständen urheberrechtlich geschützt sind?

Ich bin kein Jurist, aber die Frage ist natürlich auf mehreren Ebenen interessant. Ich würde hier argumentieren, dass ein neuronales maschinelles Übersetzungssystem lernt, Übersetzungen zu imitieren und darauf basierend neue Übersetzungen generiert. Ein Mensch, der übersetzen lernt, macht genau dasselbe: Er sieht sich ebenfalls viele Übersetzungen an und lernt daraus, bis er selbst gut übersetzen kann. Da kommt auch niemand und wirft der Übersetzerin vor, sie habe sich von urheberrechtlich geschützten Texten inspirieren lassen. Natürlich sollte diese Frage in gewissen Fällen juristisch beleuchtet werden, aber wenn man das den maschinellen Übersetzungssystemen als grossen Konstruktionsfehler anlastet, macht man es sich zu einfach.

Die maschinelle Übersetzung schneidet bestimmt nicht bei allen Textsorten gleich gut ab, oder etwa doch?

Mir fällt auf, dass die Leute oft von falschen Grundannahmen ausgehen. Man denkt, Gebrauchstexte könne man problemlos übersetzen, literarische Texte auf keinen Fall. So einfach ist es nicht. Manchmal funktioniert maschinelle Übersetzung bei einfachen Texten erstaunlich schlecht und bei komplizierten erstaunlich gut. Es kann sein, dass die Maschine für einen Marketingtext völlig unbrauchbar ist, bei einem Romankapitel aber sehr gute Ergebnisse liefert. Ich würde dafür plädieren, dass Übersetzer, die mit maschineller Übersetzung arbeiten wollen, diese mitlaufen lassen und selektiv einsetzen. Es kann sein, dass ich an einigen Stellen durch die maschinelle Übersetzung viel Zeit spare. An anderen Stellen sehe ich sofort, dass das Ergebnis unbrauchbar ist und übersetze selbst.

Könnte man ein System auf ein bestimmtes Genre trainieren, zum Beispiel auf Kriminalliteratur?

Technisch ist das grundsätzlich möglich. Es kommt aber auch hier wieder darauf an, ob man genügend Trainingsdaten hat. Jedes System wird zuerst mit allgemeinen Daten trainiert und kann anschliessend spezialisiert werden. Wenn ein Verlag ein System möchte, das Krimis übersetzt, und fünfzig bereits übersetzte Bände einer Serie zur Verfügung stellt, dann könnte man ein System auf diese Textsorte spezialisieren. Es würde bestimmt besser in diesem Stil übersetzen, aber immer noch Fehler machen, die eine Übersetzerin oder ein Lektor korrigieren müssten. Heute sind die generischen Systeme eigentlich bereits so gut, dass ich mich frage, ob sich eine solche Spezialisierung überhaupt noch lohnen würde.

Können Maschinen auch Lyrik übersetzen?

Auf diese Frage gibt es zwei Antworten. Zunächst einmal würde ich sagen, dass ein System Lyrik auf jeden Fall übersetzen kann! Google hat bereits 2010 ein statistisches Übersetzungssystem entwickelt, das Versmasse berücksichtigt und gereimte Übersetzungen generiert. Bei der Lyrik scheiden sich auch bei Humanübersetzungen regelmässig die Geister – es gibt so viele mögliche Lösungen und Interpretationsarten. Auch ein maschinelles System generiert in einer ersten Phase eine Übersetzung, die dann kritisch betrachtet werden muss. Deshalb kann man nicht sagen, dass Systeme etwas per se nicht können. Wenn es in den Trainingsdaten für etwas Vorkommnisse gibt, wird das System das auch imitieren. Man könnte definitiv Systeme bauen, die Lyrik besser übersetzen als das generische Systeme heute tun, aber es besteht dafür kein Interesse, und entsprechend wird auch kein Geld in die Forschung investiert.

Und die zweite Antwort?

Die wäre, dass Systeme bei Phänomenen wie Wortspielen und Wortneuschöpfungen Humanübersetzern wohl nie werden das Wasser reichen können. Vielleicht in hundert Jahren, aber ich bin da eher skeptisch. Wo echte Intelligenz und Kreativität gefragt sind, wird es immer menschliche Übersetzerinnen brauchen.

Müssen wir uns als Übersetzer also keine Sorgen machen? Oder ist das die falsche Frage?

Es stört mich, dass es immer darum geht, sich gegenseitig auszuspielen. Grundsätzlich finde ich es spannend, wenn sich Mensch und Maschine messen, aber ich würde mir wünschen, dass wir bei diesem Thema die Emotionen endlich etwas mässigen. In der Vergangenheit wurde sicherlich viel Schaden angerichtet. Schon in den 1950er und 60er Jahren verkündeten Forscher, bald brauche man keine Übersetzerinnen mehr. Das war eine grosse Provokation den Übersetzern gegenüber. Diese wiederum waren mit den Ergebnissen der Systeme gar nicht zufrieden und fühlten sich ihrerseits überlegen. Dasselbe passierte wieder in den 1980er und 90er Jahren, als die statistischen Systeme aufkamen. Und so ging es immer weiter. Das ist schade. Natürlich kann ein neuronales maschinelles Übersetzungssystem gewisse Dinge besser als ein Mensch: Ein Mensch kann nie eine E-Mail – geschweige denn einen Roman – innerhalb von wenigen Sekunden übersetzen. Genauso wird ein System niemals eine gerichtliche Übersetzung prüfen und beglaubigen können. Egal, was noch passieren wird, Maschinen werden nie zu Menschen werden – und Menschen auch nicht zu Maschinen.

Was bringt die neuronale maschinelle Übersetzung den Übersetzerinnen?

Hier sehe ich interessante Perspektiven. Etwa, dass Übersetzer eigene Systeme entwickeln können. Jemand, der Lyrik übersetzt, könnte bei seinem eigenen System beispielsweise einstellen, dass er jetzt ein Leipogramm oder eine Alliteration benötigt. Das System würde dann einen Vorschlag generieren, den man weiterbearbeiten oder verwerfen könnte. Ebenfalls denkbar wäre ein System, das Wortalternativen vorschlägt. Das gibt es bei kommerziellen Systemen heute schon. Durch einen solchen Einsatz würde die maschinelle Übersetzung Teil des kreativen Prozesses. Sie lieferte dann nicht eine Vorlage oder ein Produkt, sondern diente der Inspiration. Wenn ich dank der maschinellen Übersetzung produktiver werde, weil ich bei einfacheren Stellen einen grossen Teil des Ergebnisses übernehmen kann, habe ich auch mehr Zeit, mich den kniffligen Stellen und Wortspielen zu widmen. Maschinelle Übersetzung müsste mehr als Chance, denn als Bedrohung gesehen werden.

Samuel Läubli studierte Computerlinguistik an der Universität Zürich und Künstliche Intelligenz an der University of Edinburgh. Er ist Partner und CTO bei TextShuttle sowie Lehrbeauftragter am Institut für Computerlinguistik der Universität Zürich. Seine Forschungsschwerpunkte sind maschinelle Übersetzung, Übersetzungswissenschaft und Human-Machine Interaction.

Interview: Steven Wyss, Übersetzerhaus Looren

Bildnachweis: zVg

Übersicht