Expertengespräche über Qualität
09.01.2023
Quality Time mit TextShuttle: Über Maschinen, Menschen und Trends der maschinellen Übersetzung
Unsere Reihe von Expertengesprächen zu Themen rund um Übersetzungsqualität im Sprachdienstleistungssektor geht weiter. In der aktuellen Folge hat sich Jasmin Nesbigall, Leitung MTPE und Terminologiemanagement bei oneword, mit Samuel Läubli, CTO von TextShuttle, unterhalten. Ein hoch interessantes Gespräch über Qualitätsdefinition und -sicherung in der maschinellen Übersetzung.
Jasmin Nesbigall (JN): Wie schön, dass wir uns heute im Rahmen unserer Quality Time über unser beider Herzensthema maschinelle Übersetzung unterhalten können. Starten wir doch mit einem kurzen Rückblick und dann dem Blick nach vorne, auch für TextShuttle: Beim Durchbruch von NMT 2016 lag der Fokus auf den sehr guten Ergebnissen, die Thema in Presse und Medien waren. Mittlerweile liegt der Fokus immer mehr auf Fehlern, Fehlerquellen und auf der Erwartungshaltung, dass maschinelle Übersetzung die gleichen Ergebnisse liefern soll wie ein menschlicher Übersetzer.
Samuel Läubli (SL): Im Grunde ist das vergleichbar mit Rechtschreibfehlern: Wenn Muttersprachler:innen welche machen, wird direkt darauf hingewiesen, gerne auch in Social Media. Aber wenn jemand, der die Sprache erst lernt, einen Fehler macht, dann sehen die meisten darüber hinweg.
JN: Ist aus Ihrer Sicht der Kipppunkt erreicht, wo MT nicht mehr als Hilfsmittel und zusätzliches Tool betrachtet wird, sondern wo es direkt mit dem Menschen verglichen und sogar gleichgesetzt wird?
SL: Die Antwort ist irgendwie ja und nein und es kommt darauf an, um wen es dabei geht. Wir haben das schon ganz früh gesehen, 2018, als wir für Banken und Versicherungen tätig waren. Die Sprachspezialist:innen und Übersetzer:innen dort, die Ahnung von Übersetzungen hatten, haben das immer als Maschine gesehen und es gab nie den direkten Vergleich oder eine Gleichsetzung zu einem Menschen. Aber bei den Leuten, die eher auf die Produktivität und den Profit achten und sich weniger mit Sprache auskennen, hat so eine Gleichsetzung schon eher stattgefunden. Also je nachdem, wie stark man sich mit dem Thema beschäftigt.
JN: Das heißt dann auch, je professioneller die Nutzer:innen sind, desto mehr wird auf die Fehler geachtet, die das System macht. Doch wer es einfach nur in seinen Alltag integriert, zum Beispiel über Übersetzungs-Apps oder auf einer Website auf „Übersetzen“ klickt, sieht es als netten Helfer und Zusatzfunktion des Browsers.
„Je professioneller Nutzer:innen und Nutzung, desto mehr Fokus liegt auf den Fehlern der maschinellen Übersetzung.“
SL: Genau. Für diese Nutzer:innen ist es gar nicht präsent. Die gehen ja nicht gezielt auf eine Anbieterplattform, sondern landen auf einer japanischen Website und da poppt die Nachricht auf: „Möchtest Du diese Seite übersetzen?“ Aber da ist einem kaum bewusst, was im Hintergrund abläuft, und man rechnet auch nicht mit perfekten Ergebnissen.
Wir hatten aber auch an der ZHAW angehende Übersetzer:innen im ersten und zweiten Semester, die maschinelle Übersetzung genutzt haben, um zu kontrollieren, ob das, was sie übersetzt haben, auch wirklich so passt. Der Übergang der Nutzung ist also fließend, doch der Stellenwert und die Erwartungshaltung sind definitiv andere als noch vor einigen Jahren. Die Systeme können viel und die Frage ist einfach: Was machen sie anders als der Mensch?
JN: Wenn wir sagen, dass die Systeme viel können, dann sehen wir auch, dass die Anbieter gerne behaupten, ihr System sei das beste in einer bestimmten Sprache oder für ein bestimmtes Fachgebiet. Im Intento-Report gibt es regelmäßig das Fazit, dass eigentlich jedes MT-System in mindestens einer Sprachrichtung und mindestens einem Sachgebiet als das beste abgeschnitten hat. Nun wissen wir aber auch, wie unterschiedlich Texte und Anforderungen in einem Fachgebiet sein können. Woran also kann man die Qualität eines MT-Systems wirklich festmachen? Geht es darum, welches die wenigsten Fehler macht? Oder die wenigsten schwerwiegenden Fehler macht? Oder wessen Fehler am leichtesten zu posteditieren sind?
SL: Man muss sich immer fragen, was der Zweck von MT ist und kann zwei Richtungen betrachten: Einmal MT zum Verständnis, also nicht in der professionellen Übersetzung. Wenn ich einfach einen Text verstehen will, ist wahrscheinlich das System das Beste, welches die wenigsten schwerwiegenden Fehler macht. Ob ich jetzt in einer Übersetzung für die Schweiz trotzdem noch das ß drin habe, ist für das Verständnis ja erstmal egal.
Bei MT in der professionellen Übersetzung, also mit Human-in-the-loop, wird es aber komplexer. Da gibt es kein lineares Verhältnis von Fehlern und Aufwand im Post-Editing, auch wenn das gerne so gesehen wird. Es ist zwar schon ein Indikator: Wenn ein System zehn schwere Fehler macht und ein anderes nur zwei, kann man wahrscheinlich auch produktiv besser mit dem zweiten System arbeiten.
Aber wenn wir bei TextShuttle Systeme spezialisieren, geht es auch um stilistische Anpassungen. Da wird von der Machine-Learning-Community fast belächelt, wie viel Aufwand wir zum Beispiel in Anführungszeichen stecken. Klar, das sind keine offensichtlichen Fehler, aber halt Aufwand beim Posteditieren, wenn jedes Anführungszeichen korrigiert werden muss. Also müsste ich für die Wahl des besten Systems über einen gewissen Zeitraum mit einer bestimmten Anzahl Posteditor:innen die Produktivität messen, um zu entscheiden, mit welchem System am besten gearbeitet werden kann.
JN: Produktivität ist ein Schlüsselwort. Wir sehen bei unseren Evaluierungen immer wieder, dass die Schwere eines Fehlers und der Aufwand der Korrektur nicht unmittelbar zusammenhängen. Ich kann zum Beispiel einen terminologisch schweren Fehler haben, wenn ein Terminus sachgebietsfremd übersetzt wurde. Wenn es dazu aber eine Vorgabe in der Terminologiedatenbank oder einen standardisierten Fachterminus gibt, dann ist es ein simples Ersetzen des falschen Wortes und ein sehr geringer Aufwand im Post-Editing. Andersrum passt ein Satz vielleicht einfach stilistisch nicht, was zwar nur eine geringe Fehlerschwere ist, aber zur Korrektur mit entsprechend hohem Post-Editing-Aufwand komplett umgeschrieben werden muss.
SL: Super Beispiel! Das zeigt doch, dass es vielleicht korreliert, aber man nicht von der Fehleranzahl auf den Post-Editing-Aufwand schließen kann. Und nochmal zum besten MT-System: Ich glaube, bei generischen MT-Systemen ist es schon seit einiger Zeit so, dass die Qualität einfach konvergiert. Dann ist es in vielen Fällen einfach Branding: DeepL ist für viele einfach ein Begriff und der coole Underdog im Vergleich zu Google Translate. Genauso, wie man vielleicht auch seine Lieblingsmarke für Pullover hat, obwohl die meisten faktisch ungefähr gleich warmhalten würden. Wenn wir aber schauen, was die nächste Welle im MT-Bereich wird, dann geht es eher um Features, Benutzerfreundlichkeit und auch um Integrationsfähigkeit in andere Systeme. Ich glaube, dass sich darin die großen Unterschiede zeigen werden in den nächsten Jahren, und nicht darin, wer wie viele leichte oder schwere Fehler macht.
„Wenn wir schauen, was die nächste Welle im MT-Bereich wird, geht es eher um Features und Benutzerfreundlichkeit.“
JN: Bei Fehlern sind wir auch gleich beim Thema Qualitätsbewertung. Wenn eine Bewertungsmetrik den MT-Output mit dem Ergebnis vergleicht, das ein Mensch geliefert hätte, wird das der Praxis doch nicht gerecht. Wenn zwei Menschen den gleichen Satz übersetzen, werden sich die Ergebnisse ja auch unterscheiden. Wieso also wird ein MT-System danach bewertet, wie nah es an der menschlichen Übersetzung ist. Ist das noch zeitgemäß bzw. praxistauglich?
SL: Da sind wir beim Stichwort referenzfreie Evaluation. Bei der ganzen Bewertungsthematik sind immer die Ressourcen zentral: Wie viel Zeit habe ich, wie viel Geld habe ich, wie viele Leute habe ich, die daran arbeiten können? Bei der Systementwicklung brauche ich natürlich eine automatisierte Evaluation, weil ich während des Trainings einer Engine nicht jede Stunde 2.000 Sätze von Menschen bewerten lassen kann. Und für die automatisierte Evaluation brauche ich irgendein Resultat, mit dem ich das aktuelle Ergebnis meiner Engine vergleichen kann, also nehme ich eine menschliche Übersetzung.
Die BLEU-Metrik, die da oft kritisiert wird, war eigentlich dafür gedacht, dass man mehrere Referenzübersetzungen von Menschen mit einem maschinell generierten Output vergleicht. Da war also linguistische Varianz mitgedacht. Die Metrik ist also gar nicht schlecht, nur macht halt aus Kostengründen niemand mehrere Referenzübersetzungen für eine automatisierte Bewertung.
JN: Welches Vorgehen zur Qualitätsbewertung von MT-Output ist also aus Ihrer Sicht sinnvoll?
SL: Wenn wir Systeme testen, dann testen wir bei wichtigen Entscheidungen immer mit Menschen. Wir machen zum Beispiel A/B-Tests mit einem Ausgangstext und dann zwei Versionen der Übersetzung. Und dann wird geschaut, wie oft im Durchschnitt die menschliche Übersetzung und wie oft die maschinelle Übersetzung besser bewertet wird. Eigentlich sollte man von den starren Metriken wegkommen. Nicht, weil Menschen schlecht sind, aber wenn man das Ganze so mathematisiert, dann wird es dem nicht gerecht, dass es für jeden Satz theoretisch unendlich viele richtige Übersetzungen gäbe und nicht nur die eine, goldene Lösung. Aber das ist mit beschränkten Ressourcen natürlich schwer zu modellieren.
„Wenn wir Systeme testen, dann testen wir bei wichtigen Entscheidungen immer mit Menschen.“
JN: Wir hatten es vorhin schon mal von stilistischen Anpassungen in der maschinellen Übersetzung, zum Beispiel vom fehlenden ß für die Schweiz. Bei unseren Evaluierungen zeigt sich immer wieder, dass Anpassungen an Styleguide-Vorgaben eine der Hauptfehlerquellen bei generischer MT ausmachen. Ist also die Anpassung an solche Vorgaben eine große Stellschraube hin zu höherer Qualität? Wenn wir uns mal das Thema Gendern rausgreifen: Lässt sich sowas über Stilvorgaben abbilden? Wenn ich also im Ausgangstext eine einheitliche Genderform nutze, kann ich dann der Maschine beibringen, dass zum Beispiel im französischen Zieltext immer ein Binnenpunkt als Genderform verwendet werden soll?
SL: Das ist absolut eine große Stellschraube. Das Fiese ist, dass Dinge, die so einfach aussehen, in der Umsetzung teilweise sehr schwierig sind. Das ß für die Schweiz mit doppeltem S zu ersetzen, ist eine Zeile Code und wirklich nicht schwierig. Gendergerechte Sprache ist aber das andere Ende des Spektrums, weil sie deutlich komplexer ist. Es gibt ja in den Sprachen keine einheitlichen Festlegungen und keine Trainingsdaten, aber halt viele Ambiguitäten. Zum Beispiel „Leiter“ im Deutschen. Ist damit eine Sache oder ein Mensch gemeint? Da geht es nicht mehr um stilistische Anpassungen, sondern darum, einem System beizubringen, solche Arten von Texten erstellen zu können.
JN: Aber den Fall habe ich nur, wenn ich aus einer nicht-gegenderten Form übersetze, zum Beispiel aus dem Englischen. Da habe ich einheitlich „teacher“ für Männer und Frauen. Wenn ich dann aber im Deutschen „Lehrer:in“ im Ausgangstext habe, dann muss das System doch nur eine Vorgabe haben, wie diese gegenderte Form im Spanischen oder Französischen umgesetzt werden soll.
SL: Und das ist leider nicht so einfach. Klar, ich habe dann ein Signal für das System: Hier gibt es eine genderfaire Form und die soll in der Zielsprache entsprechend ausgedrückt werden. Doch die Systeme sind heute so gut, weil sie nicht mehr auf festgeschriebenen Regeln basieren, sondern von Daten lernen. Ich muss dem System keinen Genitiv beibringen, sondern ich zeige ihm ganz viele Beispiele, mit denen es den Genitiv lernt. Für gendergerechte Sprache gibt es diese vielen Beispiele allerdings nicht. Was passiert also? Die meisten Systeme ignorieren die Genderzeichen einfach. Das heißt, ich kann anfangen zu basteln und diese Regeln ins System bringen, aber damit umgehe ich ein Stück weit den neuronalen Mechanismus, weil es die Beispiele aus der echten Welt einfach noch nicht in ausreichender Zahl gibt.
JN: In der echten Welt gibt es nicht nur für diese Fälle, sondern teilweise auch für komplette Sprachen zu wenig Material für ein MT-Training. Wir Europäer:innen haben da eine sehr bequeme Ausgangsposition mit unseren Sprachen und den entsprechend meist guten MT-Ergebnissen. Was gilt denn aber für Low-Ressource-Sprachen? Ab welcher Datenmenge lohnt sich ein Training, um eine Sprache maschinell abbilden zu können? Und geht es dann eher darum, eine Sprache in guter Qualität anzubieten oder darum, der erste Anbieter zu sein, der eine unterrepräsentierte Sprachrichtung anbieten kann?
SL: Diese Schwelle für das Training gibt es schon, aber sie ist niedriger als man denkt. Wenn ich ein System für Deutsch nach Englisch trainieren will, kann ich 100 Millionen übersetzte Sätze aus einfach zugänglichen Quellen verwenden. Da muss ich methodisch nicht viel machen, weil ich ein umfangreiches Trainingsmaterial habe. Man kann aber auch mit 100.000 Sätzen schon relativ robuste Systeme trainieren, muss dann aber methodisch viel mehr Dinge kompensieren. Die Frage in der Praxis ist also: Lohnt es sich das für ein Unternehmen überhaupt, das zu machen? Wir haben das bei TextShuttle mit Rätoromanisch gemacht, also für eine Sprache mit circa 30.000 Sprecher:innen, doch da stand auch ein entsprechender Use Case für eine nationale Rundfunkanstalt dahinter. Grundsätzlich kann man Systeme also auch mit wenig Daten trainieren, aber dann müssen daran einfach mehr KI-Spezialist:innen arbeiten, deshalb wird es in der Praxis sicherlich selten gemacht.
JN: Viele kleinere Sprachen gehen bei MT-Anbietern deshalb über Relaissprachen. Dabei besteht immer die Gefahr, dass Spezifik verloren geht. Wenn ich im Deutschen „Lehrerin“ eingebe, wird es im Englischen „teacher“ und dann im Spanischen das männliche „maestro“. Das englische „you“ kann sowohl geduzt als auch gesiezt sein und sowohl eine als auch mehrere Personen meinen. Wenn also Englisch als Relaissprache genutzt wird, schalte ich hier eine Sprache zwischen, die deutlich weniger spezifisch ist als zum Beispiel Deutsch oder Französisch. Sind Relaissprachen also eher ein Fluch, weil Spezifik verloren geht? Oder ein Segen, weil ich manche Sprachen überhaupt nur über eine Relaissprache abbilden kann, da für das direkte Sprachpaar nicht genug Material zur Verfügung steht?
SL: Megaspannendes Thema! Bei den sehr kleinen, also den Low-Ressource-Sprachen ist es wahrscheinlich eher ein Segen. Wobei es immer andere Methoden gibt, zum Beispiel mit einer verwandten High-Ressource-Sprache vorzutrainieren und dann mit der Low-Ressource-Sprache nur das Finetuning zu machen.
Das richtige Pivoting macht man in der Praxis oft eher, um Hardware-Ressourcen und damit Geld zu sparen, weil man mit Relaissprachen mehr Sprachen mit weniger Engines unterstützen kann.
Um zur Frage zurückzukommen: Bei kleinen Sprachen ergeben Relaissprachen schon Sinn und unter Umständen sind die Ergebnisse damit besser als ohne Zwischensprache, weil durch Englisch einfach viel mehr Trainingsmaterial zur Verfügung steht. Aber bei Sprachen, wo das nicht nötig ist, verliert man durch die fehlende Spezifik ganz klar – das sehen wir auch bei internen Evaluierungen immer wieder.
JN: Zum Abschluss habe ich noch fünf schnelle Fragen. Die Antworten gerne so knapp und aus dem Bauch heraus wie möglich.
Die erste Frage betrifft das Post-Editing: Irgendwann überflüssig oder gekommen, um zu bleiben?
SL: Gekommen, um zu bleiben, und in der Zukunft in immer weniger Fällen nötig.
JN: Ihr Lieblingsfehler in einem Übersetzungssystem?
SL: Ich mag Fehler auf der Metaebene. Wenn ich „This sentence contains exactly 45 characters.” mit einem Übersetzungssystem ins Deutsche übersetze, dann kommt „Dieser Satz enthält genau 45 Zeichen.“ raus. Sprachlich ist das eine super Übersetzung, aber inhaltlich eben nicht, weil es nur 37 Zeichen sind. Das zeigt sehr schön, wo Übersetzungssysteme auch heute noch Grenzen haben.
JN: Wenn Sie auf Knopfdruck eine neue Sprache beherrschen könnten, welche wäre das?
SL: Irgendeine kleine philippinische Sprache. Wir haben Familie auf den Philippinen und dort ist Kapampangan die Muttersprache. Und da habe ich aktuell keine Chance! Tagalog kann man noch mit Google Translate übersetzen, aber bei Kapampangan bin ich aktuell leider komplett raus.
JN: Maschinelle Übersetzung ist für mich…?
SL: …immer noch unendlich spannend! Wenn man sieht, wie einfach diese Systeme aufgebaut sind, wie sie lernen, wie wenig das mit menschlichem Denken vergleichbar ist, aber welche Dinge man mit ein paar Millionen Fließkommazahlen generieren kann, fasziniert mich das nach wie vor.
JN: Die Einschätzung teile ich. Wenn man überlegt, wie lange Menschen brauchen, um eine Sprache zu lernen und somit Zugang zu Texten und Inhalten zu bekommen, dann ist es umso faszinierender, dass jetzt auf Knopfdruck Sprachbarrieren wegfallen können.
Die letzte schnelle Frage ist: Wo sehen Sie TextShuttle in fünf Jahren?
SL: In fünf Jahren ist TextShuttle auf jeden Fall sehr viel sichtbarer als heute. So unglaublich viele MT-Anbieter gibt es ja gar nicht, aber wenn man Leute fragt, welche sie kennen, dann kommt als Antwort vielleicht DeepL oder Google Translate. Ich will jetzt nicht behaupten, dass in fünf Jahren genauso viele Leute TextShuttle kennen, aber zumindest deutlich mehr als nur Schweizer Versicherungen und Banken.
JN: Vielen Dank für den tollen Austausch!
8 gute Gründe für oneword.
Erfahren Sie mehr über unsere Kompetenzen und was uns von klassischen Übersetzungsagenturen unterscheidet.
Wir liefern Ihnen 8 gute Gründe und noch viele weitere Argumente, warum eine Zusammenarbeit mit uns erfolgreich ist.