17.05.2023
Domänenspezifische MT-Systeme: maschinelle Übersetzung vom Fach
Sind fachgebiets- oder domänenspezifische maschinelle Übersetzungssysteme (MT-Systeme) effektiver als generische? Jasmin Nesbigall, unsere Fachleitung MTPE und Terminologiemanagement, erörtert diese Frage anhand konkreter Vergleichsanalysen.
Domänenspezifische MT-Systeme sind Engines, die vom Anbieter mit Daten aus einem bestimmten Fachgebiet – zum Beispiel Recht, Software oder Maschinenbau – trainiert wurden. Ihr Einsatz verspricht bessere Ergebnisse in puncto Fachterminologie und Textspezifika, als dies grundsätzlich bei generischen MT-Systemen der Fall ist. Je spezifischer ein Fachbereich und seine Textsorten, desto größer könnte der Vorteil beim Einsatz domänenspezifischer Engines sein. Doch können sie halten, was sich viele Nutzer:innen davon versprechen?
In unserer letzten offenen Fragerunde ging es um das Thema Qualitätssteigerung beim Einsatz maschineller Übersetzung. Ein Fokus lag dabei auf dem Einsatz fachgebietsspezifischer Maschinen. Einige MT-Anbieter haben sich auf diese Art von Systemen spezialisiert und decken eine Bandbreite von Fachgebieten und Sprachkombinationen ab. Oft bilden domänenspezifische Engines auch die Grundlage für ein unternehmensspezifisches MT-Training. In diesen Fällen wird dann beispielsweise für ein Unternehmen aus der Medizintechnik eine vorhandene domänenspezifische Engine als Grundlage genommen und mit unternehmenseigenem Material weiter trainiert bzw. das „Finetuning“ vorgenommen.
Je nach eingesetztem System ist es außerdem noch möglich, Terminologie in Form eines Glossars einzubinden, sodass Fachtermini bestimmten Vorgaben entsprechend umgesetzt werden. Für einen Vergleich der beiden Systemarten – generisch vs. domänenspezifisch – ist zunächst ein Blick auf die Kosten, die Dauer bis zur Einsatzbereitschaft und eben die Qualität interessant, die man erwarten kann bzw. konkret erwartet.
Erwartungshaltung: Aufwand und Kosten vs. Qualität
Generische Systeme sind zu geringen Kosten in Monatsabos oder sogar kostenlos verfügbar – zumindest, wenn man die Datensicherheit außen vor lässt. Der Einsatz ist also innerhalb weniger Minuten möglich. (Meist wird dafür nur die Zustimmung zu den AGBs oder die Einrichtung eines Accounts benötigt.) Zwar variiert die Qualität je nach Anbieter und Sprachkombination, doch insgesamt lassen sich mit den bekannten Tools gute bis sehr gute Ergebnisse erzielen.
Domänenspezifische Engines sind im Vergleich dazu oft etwas teurer, da sie von Anbietern gezielt mit bestimmten Texten trainiert wurden und Daten vorab detaillierter kuratiert werden müssen, als dies bei generischen Systemen der Fall ist. Auch die Suche nach der passenden Engine, die sowohl mit dem Fachgebiet als auch mit der Sprachkombination matcht, kann etwas länger dauern. Insgesamt ist dann aber auch eine schnelle Nutzung nach Einrichtung eines Accounts möglich.
Angesichts des generellen Aufwands liegen die Erwartungen an die Qualität bei domänenspezifischen Engines natürlich höher als bei generischen Systemen.
MT-Systemvergleich: domänenspezifisch vs. generisch
Da domänenspezifische MT-Systeme mit Daten aus einem bestimmten Fachgebiet trainiert wurden, besteht die Erwartungshaltung, dass Fachterminologie entsprechend korrekt und konsistent umgesetzt wird. Gleiches gilt, vor allem bei stark standardisierten Texten wie im Rechtsbereich oder in medizinischen Gutachten, für einen angemessenen und üblichen Stil. Außerdem sollten fachspezifische Besonderheiten korrekt umgesetzt werden. So besteht zum Beispiel in der Softwareübersetzung die Erwartung, dass die Satzstruktur in einem Softwaretext korrekt bleibt, auch wenn dieser viele Bezüge zur Oberfläche enthält, weil das MT-System mit diesen Einschüben entsprechend umgehen kann.
Die grundlegende Herausforderung ist, für ein Fachgebiet und Unternehmen die passende Engine zu finden. Denn domänenspezifische Engines enthalten zwar Fachtermini, doch die Frage ist, ob dies auch die Termini sind, die Nutzer:innen verwenden möchten. In der Regel verwenden Unternehmen eigene Fachtermini in Form markenprägender Eigennamen und eine eigene Corporate Language, um ihre Alleinstellung zu verdeutlichen und sich vom Wettbewerb abzuheben. Wenn es in diesem (Regel-)Fall aber keine entsprechenden Vorgaben des Unternehmens gibt bzw. sich diese nicht explizit an das MT-System übermitteln lassen, übersetzt die Engine auch Fachtermini „wie gelernt“. Damit rückt der Fokus auf die Standardisierung der Termini: Gelten innerhalb eines Fachbereichs allgemeingültige Fachtermini, sodass grundsätzlich mit einer korrekten und konsistenten Umsetzung gerechnet werden kann? Oder steht vielleicht am Textanfang „Schraubendreher“ und am Textende „Schraubenzieher“?
All diese und ähnliche Aspekte haben wir in einem Testprojekt betrachtet und eine Reihe von Analysen und Kennzahlen dazu erstellt. Dafür haben wir einen exemplarischen Text aus dem Automotive-Bereich verwendet, aus dem 20 Termini wie zum Beispiel Radarsensor und Spurhalteassistent extrahiert und deren englische Äquivalente (Vorzugsbenennungen) festgelegt wurden.
Insgesamt kamen diese 20 festgelegten Termini 59 mal im Text vor – also 59 Stellen, an denen das MT-System die Terminologie korrekt umsetzen oder eben missachten könnte. Eingesetzt wurden drei verschiedene Engines: eine generische, eine domänenspezifische Engine für den Bereich Automotive und zum Vergleich noch eine domänenspezifische Engine für den Bereich Technik.
Alle drei Übersetzungsergebnisse wurden professionell posteditiert, wobei die Vorgaben der Norm ISO 18587 eingehalten wurden. Danach müssen alle Fehler – egal ob sprachliche oder inhaltliche – korrigiert werden, es dürfen aber keine unnötigen Änderungen vorgenommen werden. Die Ergebnisse bei den Änderungen und Anpassungen zeigten zwar Unterschiede, jedoch keine massiven Abweichungen zueinander:
Ergebnisse im Vergleich (Quelle: oneword GmbH)
Orange: keine Änderungen nach der maschinellen Übersetzung nötig
Petrol: geringe Anpassungen bis zu 15 % des Segments
Hellgrau: starke Anpassungen, bis zu 50 % des Segments
Dunkelgrau: über 50 % Anpassungen, quasi eine Neuübersetzung
Bei der Automotive-Engine war der Anteil der Segmente, die gar nicht korrigiert werden mussten, mit 18 Prozent etwas größer, während er bei der generischen Engine 16 Prozent und bei der Technik-Engine 13 Prozent betrug. Im Bereich der geringen Anpassungen lagen die Automotive-Engine und die generische Engine etwa gleichauf. Der Anteil der Segmente, die eine starke Anpassung erforderten, war bei allen drei Engines mit etwa 50 Prozent gleich hoch. Der Anteil der Komplettüberarbeitungen bzw. Neuübersetzungen variierte zwischen 6 und 13 Prozent, wobei er bei der Automotive-Engine etwas höher ausfiel als bei der generischen Engine. Die Automotive-Engine war damit also bei Segmenten vorne, die gar nicht angepasst werden mussten, aber auch bei solchen, die komplett neu übersetzt wurden.
Eine weitere Frage betraf die generelle Anzahl der Abweichungen zwischen den domänenspezifischen Engines und im Vergleich zur generischen Engine. Also konkret: Wie unterschiedlich ist der Output beim Einsatz einer domänenspezifischen Engine? Ändert sich wirklich nur die Fachterminologie oder zum Beispiel auch die gesamte Satzstruktur?
Abweichungen der Ergebnisse (Quelle: oneword GmbH)
Beim Vergleich der Automotive-Engine mit der generischen Engine waren 38 Prozent der übersetzten Segmente identisch, 62 Prozent wichen jedoch voneinander ab. Noch deutlicher fiel der Unterschied beim Vergleich der Technik-Engine mit der generischen Engine aus. Hier waren lediglich 28 Prozent der übersetzten Segmente identisch, 72 Prozent wichen jedoch deutlich voneinander ab. Die Abweichungen sind also klar nicht nur auf einzelne Termini zurückzuführen, sondern auf grundsätzlich unterschiedliche Übersetzungsergebnisse.
Zwischenbilanz: es ändert sich viel, aber nicht nur zum Besseren
Die bereits genannte Haupterwartung an fachgebiets- oder domänenspezifische MT-Systeme ist, dass Fachtermini korrekt und konsistent umgesetzt werden. Bei allen drei eingesetzten Systemen konnte allerdings kein dafür hilfreiches Glossar eingebunden werden. Es ließen sich also keine klare Vorgaben zur Umsetzung von Fachterminologie machen. Umso wichtiger war uns deshalb, herauszufinden, inwieweit das native Übersetzungsergebnis dem entspricht, was ein Unternehmen in diesem Bereich erwarten würde. Dazu erfolgte eine detaillierte Prüfung und Auswertung der Terminologievorkommen und deren Umsetzung. Von den 59 Stellen, an denen die von uns vorgegebenen Termini vorkamen, kam es bei der generischen Engine zu 12 Fehlern bzw. Abweichung von unseren Vorgaben, bei der Automotive-Engine zu 14 und bei der Technik-Engine zu 17. In anteilsmäßigen Zahlen ausgedrückt, sind fast 80 Prozent der Fachtermini bei der generischen Engine korrekt, bei der Automotive-Engine 76 Prozent und bei der Technik-Engine 71 Prozent.
Zu unserer eigenen Überraschung wurde die gehegte Hoffnung, dass die fachgebiets- oder domänenspezifische MT-Systeme besser abschneiden als die generische Engine, also erstmal enttäuscht. Daher war uns ein Blick in die Details und hier konkret in die Standardisierung der vorgegebenen Termini wichtig. Denn je standardisierter ein Terminus ist, desto eher setzen ihn auch generische Engines um. Gleichzeitig war der Blick auf die Konsistenz interessant, denn auch die konsistente Umsetzung von Terminologie ist eine Erwartung an domänenspezifische Engines. Natürlich kann dies immer auch bedeuten, dass ein Terminus zwar konsistent, aber grundsätzlich falsch übersetzt wurde. In diesem Fall verringert sich immerhin der Korrekturaufwand, da die Korrektur dann global im Dokument vorgenommen werden kann.
Zur Überprüfung haben wir deshalb die Termini Fahrerassistenzsystem (Vorgabe: driver assistance system) und Spurhalteassistent (Vorgabe: lane tracking assistant) als Vorgaben herausgegriffen. Unser Ergebnis: Fahrerassistenzsystem wurde von allen drei Systemen wie gewünscht und auch durchgehend konsistent übersetzt. Spurhalteassistent wurde hingegen von allen Systemen anders als gewünscht und in bis zu zwei Varianten übersetzt. Bei anderen Vorgaben kam es sogar zu bis zu vier verschiedenen Übersetzungen.
Terminologie im Vergleich (Quelle: oneword GmbH)
Es ist also keine konsistentere Umsetzung innerhalb domänenspezifischer Engines zu erkennen. Auch hier gilt, dass Fachtermini im jeweiligen Kontext übersetzt werden, wie von der Maschine gelernt und damit von Segment zu Segment abweichen können.
Fazit: Domänenspezifische KI braucht menschliches Know-how
In unserem Testprojekt konnte der Einsatz domänenspezifischer Engines nicht mit der Erwartung mithalten: Fachtermini wurden weder korrekter noch einheitlicher übersetzt. Auch der Anteil an Segmenten, die komplett ohne Änderungsbedarf aus der Maschine kamen, war nicht signifikant höher als beim generischen System. Es handelte sich um keine sonderlich spezifische Textstruktur, sodass in unserem Test das Hauptaugenmerk auf der Terminologie und den zu ändernden Segmenten lag. Alle drei eingesetzten Engines erforderten einen Großteil an starken Anpassungen, sodass der Aufwand beim Post-Editing insgesamt als hoch anzusehen war.
Möchten Sie mehr über den Einsatz maschineller Übersetzung, Vergleichsanalysen, die Evaluierung von Fehlern oder das Training von unternehmensspezifischen Engines erfahren? Dann nehmen Sie unter mtpe@oneword.de gerne Kontakt mit uns auf.
8 gute Gründe für oneword.
Erfahren Sie mehr über unsere Kompetenzen und was uns von klassischen Übersetzungsagenturen unterscheidet.
Wir liefern Ihnen 8 gute Gründe und noch viele weitere Argumente, warum eine Zusammenarbeit mit uns erfolgreich ist.