23.10.2023

Terminologie für maschinelle Übersetzung: Wie die richtigen Vorgaben das Ergebnis beeinflussen

So gut die Ergebnisse maschineller Übersetzung auch sind, sie sind noch längst nicht perfekt. Vor allem die Umsetzung von Fachterminologie spielt bei der Qualität des Outputs eine entscheidende Rolle. Denn Fachtermini werden häufig falsch, inkonsistent oder zumindest abweichend von den Corporate-Language-Vorgaben eines Unternehmens übersetzt. Deshalb zeigen wir auf, wann und wie sich Terminologie in maschinelle Übersetzung integrieren lässt und was dabei zu beachten ist.

MT-Systeme übersetzen Texte und die darin enthaltene Terminologie grundsätzlich „wie gelernt“, also wie durch das Trainingsmaterial antrainiert. Denn neuronale maschinelle Übersetzung funktioniert auf Basis statistischer Wahrscheinlichkeit: Wie oft kam eine fremdsprachliche Entsprechung für ein Wort im Trainingskorpus vor und welche weiteren Wörter standen im gleichen Satz?
In Bezug auf Fachtermini bedeutet dies: Standardisierte Termini, für die es keine oder nur wenig geläufige Synonyme gibt, werden von MT-Systemen meist korrekt und konsistent umgesetzt. Denn Standardisierung heißt konsistente Verwendung über viele Quellen hinweg. Termini, die hingegen kaum oder sehr inkonsistent im Trainingsmaterial vorkamen, werden frei, falsch oder von Fall zu Fall unterschiedlich übersetzt. Denn sprachlicher Wildwuchs, entweder innerhalb eines Unternehmens oder aber über viele Unternehmen und teilweise Branchen hinweg, zeigt sich letztlich auch in Form von Varianten im MT-Output. Je nach Standardisierung, Sachgebiet, Textinhalt und spezifischen Unternehmensvorgaben kann ein MT-System also eventuell völlig an den Erwartungen vorbei übersetzen.

In einem aktuellen Beitrag über domänenspezifische MT-Systeme haben wir bereits aufgezeigt, dass es bei der Umsetzung von Fachterminologie keinen nennenswerten Unterschied zwischen dem Einsatz generischer und domänenspezifischer MT-Engines gibt: In beiden Systemarten wurden Fachtermini inkonsistent übersetzt. Genau gegen diese Inkonsistenz kämpfen viele Unternehmen allerdings seit Jahren oder Jahrzehnten an, wenn sie systematische Terminologiearbeit betreiben und ihre Terminologievorgaben in Form von Datenbanken oder Excel-Dateien verwalten. Und da gerade der Fachwortschatz eine so große Rolle für die Qualität der Übersetzung spielt, stellt sich beim Einsatz maschineller Übersetzung die Frage: Wie kommt die gewünschte Terminologie in den MT-Output?

Für die Integration und Umsetzung gibt es drei Wege bzw. drei Zeitpunkte: vor, während und nach der maschinellen Übersetzung. Im Folgenden rollen wir das Feld von hinten auf und werfen dabei Blicke auf die Details.

Nach der maschinellen Übersetzung: Terminologieänderungen beim Posteditieren

Auch wenn Terminologiekorrekturen zu den größten Aufwänden beim Posteditieren maschineller Übersetzungsergebnisse zählen, ist die Einbindung von Terminologievorgaben in Form von Glossaren oder Datenbanken eine entscheidende Stellschraube für die Textqualität. Denn dort, wo die MT-Systeme Fachtermini nicht oder nicht einheitlich übersetzen, benötigen Posteditor:innen für ihre Arbeit möglichst eindeutige Vorgaben, um das maschinelle Ergebnis zu korrigieren.

In der Praxis heißt dies: Alle wichtigen Fachtermini müssen festgelegt und möglichst im Datenbankformat vorliegen und in die Arbeitsumgebung der Posteditor:innen integriert werden. Durch diese Integration in CAT-Tools werden ausgangssprachliche Termini erkannt und die zielsprachlichen Äquivalente direkt vorgeschlagen. Auf diese Weise können eindeutige Zuordnungen vorgenommen und der sprachliche Wildwuchs der MT-Systeme verhindert werden.

Doch auch Termini, die von einer Engine bereits einheitlich übersetzt wurden, können den Corporate-Language-Vorgaben eines Unternehmens widersprechen. In einem unserer Praxistests enthielt ein Text aus dem Automotive-Bereich im Deutschen den Terminus „Spurhalteassistent“. In Wörterbüchern ist der Terminus oft gar nicht zu finden und ein Blick auf die Websites verschiedener Hersteller zeigt, dass im Englischen von „lane keeping assist“ bis „lane guard system“ viele Varianten kursieren. Erwartbar ist dadurch auch ein entsprechender Variantenreichtum bei der maschinellen Übersetzung.
Doch auch wenn ein MT-System eine der Übersetzungsmöglichkeiten konsistent umsetzen würde, kann diese immer noch der Vorgabe des jeweiligen Unternehmens widersprechen und muss dann beim Posteditieren im gesamten Text ersetzt werden. Bei der Umsetzung von Terminologie nach erfolgter maschineller Übersetzung kommen also sowohl den Posteditor:innen als auch der Qualität der Vorgaben entscheidende Rollen zu.

Während der maschinellen Übersetzung: Terminologie-Integration durch Glossarvorgaben

Viele Anbieter von MT-Systemen ermöglichen die Integration von Terminologievorgaben in Form von Glossaren, die der Engine bei der Übersetzung mitgegeben werden. Der Vorteil der Glossarfunktion besteht klar in ihrer Dynamik: Wenn sich Vorgaben ändern oder weitere hinzukommen, lässt sich das Glossar jederzeit erweitern oder bei überflüssigen Vorgaben auch reduzieren.

Dabei unterscheiden sich die Anbieter je nach unterstützten Sprachpaaren und nach Dateiformaten, in denen die Glossare vorliegen müssen. Während einige Anbieter nur Listenformate wie .csv unterstützen, können andere mit dem Terminologiedatenbank-Standard .tbx arbeiten.

Doch auch wenn die gesamte Datenbank theoretisch schnell exportiert und als Glossar verwendet werden könnte, ist dies praktisch gesehen aus mindestens zwei Gründen kaum sinnvoll:

Erstens können die MT-Systeme mit Zusatzangaben wie der Verwendung, also der Information, ob ein Terminus bevorzugt, erlaubt oder verboten ist, meist nichts anfangen. Entweder werden die Angaben ignoriert und auch verbotene Termini als gültige Vorgaben interpretiert. Oder das System verwirft ihm uneindeutig erscheinende Einträge komplett. Im besten Fall sollte eine positive Eins-zu-eins-Terminologie an das MT-System übergeben werden – also nur eindeutige Entsprechungen und lediglich bevorzugte Termini für die Zielsprache.

Zweitens muss bei der Erstellung von Glossaren auch die Menge der Terminologievorgaben kritisch betrachtet werden. Denn eine hohe Anzahl an Termini wirkt sich zwar nicht auf die Durchlaufzeit der maschinellen Übersetzung, aber deutlich auf deren Qualität aus. Je mehr Vorgaben die Maschine erhält, desto mehr wird der neuronale Ansatz ausgehebelt und das MT-System damit in ein sprachliches Korsett gezwängt. Das Ergebnis ist dann oft eine Aneinanderreihung der Termini aus der Datenbank und ein holpriges „Drumherum“ an Satzbau. Best Practice ist daher eine „Bottom-up-Strategie“: Glossare werden mit geringer, aber wichtiger Kernterminologie befüllt. Der maschinelle Output wird dann auf Terminologiefehler überprüft und das Glossar punktuell dort erweitert, wo regelmäßig Fehler entstehen.

Wichtig dabei ist der Blick auf die nativen Ergebnisse der Engines: Je nach Fachgebiet und Sprache können viele Vorgaben aus einer Unternehmensdatenbank für ein Glossar unnötig sein, da MT-Systeme die gewünschte Terminologie aufgrund der statistischen Häufigkeit bereits umsetzen. Ein Beispiel: Ein Unternehmen hat einen Terminologieeintrag für „Schraubendreher“ in der Datenbank, da für diese genormte Benennung und das Synonym „Schraubenzieher“ die Verwendung festgelegt wurde. Aus terminologischer Sicht ist dieser Eintrag absolut sinnvoll, für ein Glossar für die Sprachrichtung Deutsch-Englisch ist er allerdings überflüssig: Vermutlich wird jedes MT-System sowohl „Schraubendreher“ als auch „Schraubenzieher“ nativ mit „screwdriver“ übersetzen, da es die bei weitem geläufigste und standardisierte englische Entsprechung ist.

Vor der maschinellen Übersetzung: Konsistente Terminologie im Trainingsmaterial

MT-Training verspricht, die Qualität des maschinellen Outputs auf ein neues Niveau zu heben. Durch das gezielte Training mit Unternehmensdaten soll das entsprechend trainierte MT-System nicht nur fachlich korrekt, sondern auch entsprechend der Vorgaben zu Stil und Corporate Language übersetzen. Die Voraussetzung dafür ist ein umfangreiches, aber sprachlich sauberes Trainingsmaterial für das gewünschte Sprachpaar, mit dem eine Customized Engine trainiert wird.

Für Terminologievorgaben heißt dies: Das gesamte Trainingsmaterial muss die gewünschte Terminologie sauber und einheitlich enthalten. Der Grundsatz dabei lautet: Variantenreich im Ausgangstext, konsistent in der Zielsprache. Am oben genannten Beispiel des „Schraubendrehers“ lässt sich dies gut verdeutlichen: Das ausgangssprachliche Textmaterial muss beide Entsprechungen, also „Schraubendreher“ und „Schraubenzieher“ enthalten. Beide Benennungen sollten möglichst in unterschiedlichen Flexionen und in einer Vielfalt von Sätzen zu finden sein. In der Zielsprache – in unserem Beispiel Englisch – sollte dann aber einheitlich nur „screwdriver“ enthalten sein, um eine einheitliche Übersetzung zu gewährleisten.

Da das Trainingsmaterial meist aus Übersetzungsdaten vieler Jahre oder Jahrzehnte zusammengestellt wird, ist eine einheitliche Terminologie meist eher eine Wunschvorstellung. Umso wichtiger ist es, die Daten vor dem Training zu bereinigen, damit die Maschine die gewünschte Terminologie erlernen kann.

Übrigens: Die gewünschte Terminologie einfach in Listenform als Trainingsmaterial an das MT-System zu übergeben, macht keinen Sinn: Einer reinen Wortliste fehlt der für NMT-Systeme so wichtige Kontext, über den der statistische Abgleich funktioniert: Mit welchen anderen Wörtern steht das gesuchte Wort oft zusammen, wie wird es in verschiedenen Sätzen übersetzt? Ein NMT-System kann also aus dem Listenformat ohne Kontext nichts lernen.

Unser Fazit

Maschinelle Übersetzung benötigt dringend Terminologievorgaben, um qualitativ mit Humanübersetzungen mithalten zu können. Ob diese vor, während oder nach dem MT-Einsatz in das Übersetzungsergebnis integriert werden, hängt vom Prozess und den Möglichkeiten der Systeme ab. Eine entscheidende Rolle kommt aber der Qualität und Aufbereitung der Terminologievorgaben zu.

Möchten Sie weitere Informationen über das Zusammenspiel von Terminologie und maschineller Übersetzung? Oder möchten Sie wissen, wie sich Ihre Vorgaben in die maschinelle Übersetzung einbinden lassen? Dann nehmen Sie unter mtpe@oneword.de Kontakt mit uns auf.

8 gute Gründe für oneword.

Erfahren Sie mehr über unsere Kompetenzen und was uns von klassischen Übersetzungsagenturen unterscheidet.

Wir liefern Ihnen 8 gute Gründe und noch viele weitere Argumente, warum eine Zusammenarbeit mit uns erfolgreich ist.

Angebot anfordern

    Ich bin damit einverstanden, dass mich die oneword GmbH kontaktiert und meine angegebenen Daten speichert.