07.06.2024
oneCleanup: Datenbereinigung leicht gemacht
Daten sind das neue Gold: Sie sind wertvoll und werden für eine Vielzahl von Prozessen, Anwendungen und Entwicklungen benötigt. Gerade generative KI zeigt einmal mehr, was aus großen Datenmengen entstehen kann. Daten sind aber auch der neue Müll: Sie entstehen an unterschiedlichsten Stellen und in großer Menge, sammeln sich schnell an, werden gefühlt nie weniger und wachsen dabei teilweise sehr unkontrolliert. Und je größer der Datenberg, desto schwieriger wird es, ihn noch sinnvoll zu nutzen. Unser Service oneCleanup nimmt sich dieser Herausforderung an und hilft, den Goldschimmer unter der Dreckschicht freizulegen. Wir stellen die Hintergründe und Details vor und zeigen, warum es höchste Zeit ist, Datenbanken nicht mehr als Auffangbecken, sondern als Schatzkammer anzusehen.
Terminologie und Translation Memory – was ist der Unterschied?
Welche Daten relevant sind, ist in jedem Lebens- und Unternehmensbereich unterschiedlich. Mit oneCleanup konzentrieren wir uns auf Sprachdaten und setzen bei den beiden im Übersetzungsbereich wichtigsten Datenarten an: Translation Memorys und Terminologiedatenbanken.
In einem Translation Memory (TM) werden segmentweise der Ausgangstext und die entsprechende Übersetzung gespeichert. Das TM ist also das digitale Gedächtnis der Übersetzer:innen. Jeder neu zu übersetzende Text wird mit allen gespeicherten Vorgängerprojekten abgeglichen und identische oder ähnliche Segmente erkannt. Diese Segmente müssen dann nicht nochmal – und damit eventuell sogar abweichend – übersetzt werden, sondern werden unverändert übernommen oder angepasst. Ein klarer Zeit- und auch Kostenvorteil, da bereits vorhandene Segmente nicht mehr voll bezahlt werden müssen.
Eine Terminologiedatenbank dagegen enthält keine Sätze, sondern Einträge zu Begriffen mit den dazugehörigen Termini, Abbildungen, Definitionen und Zusatzinformationen. Im Übersetzungsprozess ist die Datenbank dem TM übergeordnet, erkennt während der Übersetzung die hinterlegten Termini innerhalb eines Segments und zeigt das zugehörige fremdsprachliche Äquivalent an. Die korrekte Verwendung der vorgegebenen Terminologie kann während oder nach der Übersetzung im Rahmen einer Terminologieprüfung kontrolliert werden.
Historisches Wachstum
In beiden Datenbanken werden also unterschiedliche, sprachbezogene Daten gespeichert. Beiden gemein ist dabei, dass sich die Daten schnell anhäufen: Mit jedem Übersetzungsprojekt wächst die Anzahl gespeicherter Segmente im TM, mit jedem neuen Eintrag oder Terminus wächst die Terminologiedatenbank. Durch umfangreiche Projekte oder Importe vorhandener Listen kann es punktuell zu starkem und manchmal unkontrolliertem Wachstum kommen. Im Übersetzungsalltag haben aber nur wenige Unternehmen etablierte Prozesse zur regelmäßigen Kontrolle und Datenpflege oder sogar zur gezielten Bereinigung der Daten. Denn eigentlich könnte man ja meinen: Viel hilft viel. Jedes im TM vorhandene Segment könnte nochmals an anderer Stelle benötigt werden, jeder erfasste Terminus könnte Recherchearbeit ersparen und die Konsistenz erhöhen. Sind große Datenmengen also gleichbedeutend mit Einsparungen von Zeit und Kosten?
In der Praxis ist häufig eher das Gegenteil der Fall: Umfangreiche Datenmengen werden schnell unübersichtlich und damit schlechter zu handhaben. Bestände wachsen dann unkontrolliert und unsauber weiter. Und unsaubere Daten erschweren die sinnvolle Nutzung deutlich. Sind in einer Terminologiedatenbank beispielsweise Dubletten mit unterschiedlichen Informationen angelegt oder enthält ein TM zwei verschiedene Übersetzung für ein fast identisches Ausgangssegment, stellt dies eine Störung des Übersetzungsprozesses dar, die zu einem erhöhten Aufwand für die Recherche und Auswahl der korrekten Daten führt. Werden die entsprechenden Segmente im TM oder Einträge in der Terminologiedatenbank nicht korrigiert, wiederholt sich dieser Aufwand entsprechend bei jedem Vorkommen in Übersetzungsprojekten. Doch auch außerhalb der Übersetzung kommt den Daten aus TM und Terminologiedatenbank eine immer höhere Relevanz zu. Denn es gibt ganz unterschiedliche Szenarien, für welche Prozesse und Anwendungen Sprachdaten genutzt werden können.
Sprachdaten für unterschiedlichste Anwendungen
Egal ob Wissensmanagement, die gezielte Nutzung von Large Language Models (LLM) oder maschinelle Übersetzung: Sprachdaten bekommen aus unterschiedlichsten Gründen aktuell den Stellenwert, den sie eigentlich schon lange verdienen. Dazu zwei beispielhafte Szenarien:
In Szenario 1 möchte ein Unternehmen einen Chatbot für Deutsch und Englisch trainieren, um auf Supportanfragen in beiden Sprachen zu antworten. Grundlage des KI-gestützten Helfers sollen vorhandene Handbücher sein, aus denen die Antworten generiert werden. Um ausreichend Input für das Training zu liefern, werden Übersetzungen der letzten zehn Jahre genutzt. Die TM-Daten wurden jedoch nie an Terminologieänderungen angepasst und auch die Oberflächentexte haben sich zwischenzeitlich geändert. Der Chatbot könnte also veraltete Informationen ausgeben oder auf Schaltflächen verweisen, die gar nicht mehr existieren. Das zum Training genutzte TM enthält außerdem zahlreiche Dubletten und Fragmente, da die Segmentierung während der Übersetzung nicht immer optimal war. Das KI-System erhält als Input also viele Daten, aus denen es nichts oder zumindest nichts Sinnvolles lernen kann. Gerade bei der tokenbasierten Abrechnung vieler Modelle – also der Zählung der kleinsten Einheiten, mit denen sie Texte verarbeiten – sind aber sowohl die Menge als auch die Qualität des Inputs entscheidend.
In Szenario 2 soll der Inhalt der Terminologiedatenbank als Glossar für maschinelle Übersetzung verwendet werden. In der Idealvorstellung werden alle Einträge an das MT-System übergeben und von diesem korrekt und konsistent umgesetzt. In der Realität aber enthalten Terminologiedatenbanken oft tausende Einträge, die als Input dienen sollen. Diese Einträge können Widersprüche enthalten, uneindeutig sein oder Vorgaben aus unterschiedlichen Bereichen enthalten. Eine umfangreiche Datenbank in ein Glossar zu überführen, kann auch bedeuten, dass plötzlich jedes zweite zu übersetzende Wort durch das Glossar vorgegeben wird. Aus einer nativ sehr flüssigen und guten Übersetzung des MT-Systems wird dann schnell ein Aneinanderreihen von Vorgaben, was den Output deutlich verändern und verschlechtern kann. Auch für dieses Szenario sind also die Menge und die Qualität der Daten ausschlaggebend für die sinnvolle Nutzbarkeit. Damit zeigt sich, dass eine Bereinigung an diesen beiden Stellen ansetzen muss. Hier kommt unser Service oneCleanup ins Spiel.
Bereinigungspotenzial und praktische Umsetzung
Ziel der Bereinigung von TM- und Terminologiedaten ist es also, einen reduzierten und sauberen Bestand zu erhalten. Um zu analysieren, wo das Bereinigungspotenzial steckt, was also alles bereinigt werden kann, setzen wir auf Automatisierung und Skripting, um die großen Datenmengen gezielt und schnell auswerten zu können.
Für beide Datenarten betrachten wir vor allem fünf übergeordnete Punkte:
- formal unsaubere Daten
- falsche Zuordnungen
- Dubletten und ähnliche Daten
- fehlende Informationen
- veraltete Daten
Auf was die jeweilige Prüfung dann konkret abzielt, ist je nach Datenart sehr unterschiedlich. Formal unsaubere Daten sind in der Terminologiedatenbank unter anderem Benennungen, die großgeschrieben wurden, obwohl eine Kleinschreibung korrekt wäre. Bei der Analyse der TM-Daten liefert dieses Prüfkriterium aber zum Beispiel Segmente, die mit unterschiedlichen Satzzeichen enden.
Mit oneCleanup analysieren wir Bestände jeder Größe. Die Prüfschritte lassen sich individuell erweitern, um allen Unternehmensvorgaben gerecht werden zu können. Denn kein TM und keine Terminologiedatenbank sind genau gleich aufgebaut oder befüllt.
Das Bereinigungspotenzial wird in Form übersichtlicher Analyseergebnisse dargestellt. Der hohe Automatisierungsgrad unseres Services oneCleanup ermöglicht es, eine schnelle Einschätzung des tatsächlichen Bereinigungsaufwands zu erhalten. Wie überall, wo es um Qualität und reflektierte Entscheidungen geht, kommt anschließend der Mensch ins Spiel, um die Ergebnisse zu bewerten und Maßnahmen ab- und einzuleiten. Änderungen und Korrekturen können direkt vorgenommen oder Daten zum Löschen markiert werden. Die Analyseergebnisse ermöglichen zudem ein iteratives Vorgehen, um Bereinigungsschritte nach und nach umzusetzen.
Fazit: Mit Expertise zu sauberen Daten
Daten sind nur dann das neue Gold, wenn sie regelmäßig kontrolliert und bereinigt werden. Denn in allen Bereichen, in denen Sprachdaten eingesetzt werden können, ist Qualität entscheidender als Quantität. Mit oneCleanup bringen wir unsere jahrzehntelange Sprach- und Prozessexpertise ein, um Datenbestände aus TM und Terminologiedatenbank ressourcenschonend und effizient zu analysieren und das Bereinigungspotenzial zu heben.
Möchten Sie mehr über oneCleanup erfahren? Dann stehen Ihnen unsere Expert:innen gern für ein Beratungsgespräch zur Verfügung.
8 gute Gründe für oneword.
Erfahren Sie mehr über unsere Kompetenzen und was uns von klassischen Übersetzungsagenturen unterscheidet.
Wir liefern Ihnen 8 gute Gründe und noch viele weitere Argumente, warum eine Zusammenarbeit mit uns erfolgreich ist.