Bewährungsprobe für das Simultanübersetzungs-Tool „transcribby AI“ von der Deutschen Telekom MMS: Bei der letzten Agritechnica (12. bis 18. November 2023), der Weltleitmesse für Landtechnik der Deutschen Landwirtschafts-Gesellschaft (DLG), wurde die erforderliche Applikation zum ersten Mal und parallel an fünf Bühnen eingesetzt. Foto: DLG e.V.

Teil 2: Simultan-Übersetzungen

KI im Eventmanagement

Kommunikation über Grenzen hinweg: Die Veranstaltungsbranche bringt Menschen aus aller Welt zusammen, um Brücken zwischen den Kulturen zu bauen, Dialoge zu fördern und Räume zu schaffen, in denen Visionen greifbar werden. KI-gestützte Übersetzungstechnologien eröffnen unterstützend neue Möglichkeiten und versprechen einen Dialog, der unabhängig von der weltweiten Sprachvielfalt geführt werden kann.

Hier geht es zu Teil 1: Feedback-Lösungen

Noch bis zum 15. November läuft die EuroTier 2024 auf dem Messegelände in Hannover. Die Weltleitmesse für professionelle Tierhaltung und Livestock-Management zieht im zweijährigen Turnus – abwechselnd mit der Agritechnica – regelmäßig über 100.000 Besucher:innen aus der ganzen Welt an. Dabei geht es der DLG Service GmbH, Fachorganisation der Deutschen Landwirtschafts-Gesellschaft (DLG) und Veranstalterin der beiden Leitmessen in Hannover, um mehr, als den 2.200 angemeldeten Ausstellern aus 52 Ländern einen Marktplatz für ihre Innovationen, Produkte und Dienstleistungen zur Verfügung zu stellen. Mit einem begleitenden Fachprogramm soll die Messe eine Plattform für gleich mehrere Leitveranstaltungen der internationalen Tierhaltungsbranche sein.

Der Ansatz der Organisatorin: Mit zeitgleichen Konferenzen, Kongressen und Events Tierhalter:innen, das Agribusiness sowie Expert:innen zum Networking und fachlichen Austausch zusammenbringen und durch einen Mix aus internationalen Keynotes, Roundtables, Preisverleihungen und anschließendem Get-together eine lockere Atmosphäre für den Austausch von Ideen zu schaffen. So wurde beispielsweise schon einen Tag vor der offiziellen Eröffnung der diesjährigen EuroTier-Ausgabe die Geflügelwirtschaft beim „International Poultry Day“ im Convention Center des Messegeländes in den Mittelpunkt gerückt. Drei Speaker – aus Italien, den USA und Deutschland – haben hier zur „International Poultry Conference“ den Start mit Impulsvorträgen rund um Nachhaltigkeit in der Geflügelbranche gemacht.

Internationalität nimmt in einer zunehmend globalisierten Welt nicht nur in der Kongress- und Messelandschaft einen immer höheren Stellenwert ein. Dabei begegnen sprachliche Hürden und unterschiedliche kulturelle Hintergründe dem ambitionierten Ziel der Veranstalter, eine nahtlose Kommunikation zu ermöglichen und so den Wissenstransfer und das Networking zu fördern. Um also ein möglichst großes Publikum zu erreichen, hat die DLG sowohl bei ihrer Geflügel-Konferenz als auch beim anschließenden Netzwerk-Format „International Poultry Event“ auf eine Simultan-Übersetzung in Deutsch und Englisch gesetzt – ohne jedoch auf die traditionelle Lösung, menschliche Simultandolmetscher:innen zu engagieren, zurückzugreifen.

Foto: Vok Dams

„Der wachsende Anspruch nach Inklusivität im B2B-Bereich verlangt nach Lösungen, die alle Teilnehmenden gleichermaßen ansprechen. Die KI-gesteuerte Audio-to-Audio-Übersetzung bietet hier eine effektive Möglichkeit, internationale Events barrierefrei zu gestalten.“

Jan Filipzik, Senior Manager Marketing & AI bei Vok Dams Events und Live-Marketing.

Marcus Vagt, Projektleiter EnergyDecentral und Bereichsleitung Messen & Veranstaltungen der DLG Service GmbH, erklärt: „Mit Blick auf die sich stetig verbessernde Qualität von KI-basierten-Übersetzungstools haben wir uns deswegen nach einer einfachen und praxistauglichen Lösung umgeschaut.“ Der gemeinnützige Verein hat sich ein Tool gewünscht, das Bühnenvorträge und Panels für die Zuhörenden verständlicher macht und simultan in die Schriftform überträgt (Speech-to-Text). Zur gleichen Zeit sollte die Textausgabe für einen Bühnenmonitor optimiert und live in andere Sprachen übersetzt werden. Zusätzlich bestand die Anforderung, den transkribierten Text und seine Übersetzung über einen QR-Code auf den Mobilgeräten der Zuhörenden zugänglich zu machen, sodass sie darüber hinaus die gewünschte Sprache auswählen und eine Audioausgabe (Text-to-Speech) abrufen können. Dazu hat die Deutsche Telekom MMS auf Basis von KI-Sprachmodellen von Azure KI Services, die Spracherkennung, Sprachsynthese und Sprachübersetzung ermöglichen, eine passende Anwendung entwickelt: „transcribbyAI“ heißt das Transkriptions- und Übersetzungstool, für das Veranstalter nur einen Client wie einen Laptop benötigen, über den der Audiostream empfangen und die benötigte Web-App zur Datenverarbeitung geöffnet wird. Integrierte, automatisch skalierende Cloud-Funktionen und ein Message-Broker sorgen laut der Digital-Dienstleister der Telekom für einen schnellen und unkomplizierten Einsatz auf Konferenzen und Messen. Die Lösung erkennt aus den Audiodaten die Ausgangssprache und könne für jeden Nutzenden individuell in über 100 Sprachen übersetzen.

KI – Lexikon

Neural Machine Translation (NMT) NMT-Systeme basieren auf künstlichen neuronalen Netzwerken, deren Hauptkomponenten aus einem Encoder, der den Eingabetext verarbeitet, einem Decoder, der die Übersetzung generiert, und einem Attention-Mechanismus, der relevante Teile des Eingabetextes fokussiert, zusammengesetzt sind. Das neuronale Netz wird mit einer großen Menge paralleler Textdaten in verschiedenen Sprachen trainiert und lernt dabei, Muster und Beziehungen zwischen Wörtern und Phrasen in den verschiedenen Sprachen zu erkennen. Das Training erfolgt ohne explizite linguistische Regeln, sondern durch statistische Analysen der Trainingsdaten. Automatic Speech Recognition (ASR) ASR ist der erste Schritt im Prozess für ein vollständiges Sprachverständnis und dafür verantwortlich, gesprochene Sprache in Text umzuwandeln. Moderne ASR-Systeme wie Whisper von Open AI oder wav2vec 2.0 von Facebook verwenden oft End-to-End Deep-Learning-Ansätze wie Transformer-basierte Architekturen. Natural Language Understanding (NLU) NLU verarbeitet den vom ASR erzeugten Text, um die Bedeutung und Absicht des Benutzers zu verstehen. NLU-Systeme extrahieren typischerweise Intents (Absichten) und Entities (Entitäten) aus dem Benutzertext und basieren oft auf großen Sprachmodellen (LLMs).

Parallel zum gesprochenen Wort erfolgt die Transkription, wobei das Tool in Sprechpausen Anpassungen wie Groß- oder Kleinschreibung und die Ergänzung von Satzzeichen vornimmt; mögliche unangemessene Ausdrücke werden im Text automatisch durch Symbole ersetzt. Speaker differenziert es anhand der Stimmfarbe. Weil es außerdem speziell für öffentliche Institutionen konzipiert wurde und deshalb DSGVO-konform auf deutschen Servern mit geprüfter IT-Sicherheit betrieben wird, hat sich transcribbyAI nach seiner Bewährungsprobe auf der letzten Agritechnica für die DLG nicht nur als eine kostengünstige Alternative herausgestellt: „Die automatische Spracherkennung trifft genau unseren Einsatzzweck und erleichtert die Simultanübersetzung auf unseren Messen ungemein“, so Vagt.

Digitale Inklusion

Und weiter: „Mit den verschriftlichten und übersetzten Inhalten bieten wir Publikum, Expert:innen und Partnern einen zusätzlichen Service und erhöhen den Mehrwert unserer Veranstaltungen.“ Schließlich biete das Tool ebenfalls Optionen für eine Export- und Weiterverarbeitung, eine Integration in externe Systeme sowie eine Anpassung an das jeweilige Markendesign. Mehr noch würden dank der digitalen Inklusion auch mehr Menschen – etwa mit Seh- und Hörbeeinträchtigungen – von einem verbesserten Zugang zu den Inhalten profitieren. „Neben dem Aspekt der Barrierefreiheit ist für uns als Veranstalter der ganz große Vorteil, dass wir aus einem viel größeren Pool von Vortragenden auswählen können“, meint Dr. Andreas Närmann, einer der DSAG-Arbeitskreissprecher Personal. Närmann hatte bei den diesjährigen Personaltagen der deutschsprachigen SAP-Anwendergruppe e.V. (DSAG) den ersten Vortrag mit KI-Unterstützung in der Osnabrückhalle mitinitiiert: Mithilfe von OpenAI Whisper und dem cloudbasierten Google Translate hat das Team der Location eine eigene KI-basierte Echtzeit-Übersetzungstechnologie den rund 900 Teilnehmenden vorstellen können. Das automatische Spracherkennungssystem (ASR) Whisper gilt als leistungsstarkes Modell, das eine Encoder-Decoder-Architektur basierend auf Transformern verwendet und mit einem Datensatz von 680.000 Stunden mehrsprachiger und Multitask-überwachter Daten trainiert wurde. Akzente, Hintergrundgeräusche und (technische) Fachbegriffe könne es so nach Angaben des Entwicklers OpenAI gut verarbeiten.

Speech to Text: Anfang Juni 2024 hat die Osnabrückhalle bei den diesjährigen Personaltagen der deutschsprachigen SAP-Anwendergruppe e.V. (DSAG) erstmals künstliche Intelligenz für Echtzeit-Übersetzungen während eines Vortrags eingesetzt. Dabei wurde ein englischsprachiger Vortrag live mit deutschen Untertiteln versehen. Foto: Osnabrückhalle

Ungefähr 60 verschiedene Sprachen soll es in Text transkribieren und ins Englische übersetzen können – jedoch nicht ganz ohne technologische Hürden: „Viele Parameter müssen präzise eingestellt werden – etwa, wann ein Satz endet und wann ein Teil übersetzt oder korrigiert wird. Unterschiedliche Sprachgeschwindigkeiten der Vortragenden erfordern individuelle Anpassungen, die sich nicht dynamisch umsetzen lassen, was gelegentlich zu Fehlübersetzungen führen kann“, weiß Shawn Hellmann, Mitarbeiter für KI & Veranstaltungstechnik in der Osnabrückhalle. Die deutschen Captions werden schließlich mit dem freien Übersetzer von Google erstellt. Hierbei stellen sich dann auch die Einschränkungen heraus, die Veranstalter beim Einsatz von KI-gestützten Simultanübersetzungstools beachten sollten.

Wortgenau, aber ohne kulturelles Verständnis

Um Sprachdaten zu analysieren und zu übersetzen, müssen viele dieser Systeme nämlich auf solche Cloud-Dienste zurückgreifen, was Datenschutzbedenken aufwerfen kann. Die Verarbeitung und möglicherweise Speicherung von Gesprächen und Redebeiträgen – gerade bei sensitiven oder vertraulichen Themen – ist ein wichtiger Punkt, den Eventorganisatoren in ihre Planung und Kommunikation mit einbeziehen sollten, um das Vertrauen der Teilnehmenden zu gewährleisten. Neben den technischen Grenzen und Störungen ist außerdem eines ihrer größten Probleme die (noch) fehlende Fähigkeit zur umfassenden Kontextanalyse: Menschliche Dolmetscher:innen berücksichtigen oft die vorherige Diskussion oder den gesamten Kontext einer Präsentation, um den richtigen Ton und Wortwahl zu treffen. KI-gestützte Tools verarbeiten in der Regel dagegen nur wenige Sätze gleichzeitig und haben daher Schwierigkeiten, weitergehende inhaltliche Verbindungen zu erkennen. Insbesondere bei längeren Reden oder Präsentationen kann das zu Missverständnissen führen. Ebenso schwer fällt der maschinellen Simultanübersetzung (noch) das Erfassen und Übersetzen von kulturellen Nuancen und idiomatischen Ausdrücken. Sprachbilder oder regionalspezifische Ausdrücke korrekt zu übersetzen und die Intention einer Aussage zu treffen, fällt menschlichen Dolmetscher:innen, die nicht nur Sprachkenntnisse, sondern auch ein kulturelles Verständnis einbringen, noch immer leichter.

Viele KI-Übersetzungstools lassen sich oft problemlos in bestehende Eventmanagement-Plattformen oder mobile Event-Apps integrieren oder können browsergestützt über das Mobiltelefon genutzt werden. Foto: Kudo AI

„Kurz gesagt: Das menschliche Dolmetschen bleibt die hochwertigste Form der sprachlichen Barrierefreiheit. Sie erhalten auch die Emotionen und Nuancen einer echten menschlichen Stimme und das Fachwissen von jemandem, der in der Terminologie und dem Kontext bestimmter Branchen oder Themen geschult ist“, heißt es dazu bei der Webkonferenzplattform Kudo, die sowohl ein Netzwerk von über 12.000 professionellen Dolmetscher:innen als auch seit Januar 2023 KI-basierte Sprachübersetzung (Kudo AI) für einfachere Anwendungsfälle anbietet. Denn „die Qualität der KI-Sprachübersetzung ist heute dennoch hoch – höher, als die meisten Menschen erwarten“, ist man sich bei dem amerikanischen Unternehmen mit Niederlassung in Genf sicher. Der Kudo AI-Sprachübersetzer beherrscht mittlerweile über 45 Sprachen und lässt sich auch als nicht eigenständige Anwendung in Event-Apps wie Eventmobi oder Webcasting-Plattformen wie GlobalMeet oder Microsoft Teams implementieren, aber auch bei Live-Veranstaltungen nutzen. Wie transcribbyAI kann es von Sprache zu Sprache übersetzen, womit Speaker in der bevorzugten Sprache gehört werden können, ohne die Untertitel verfolgen zu müssen. Die Besonderheit des Tools ist allerdings der seit diesem Sommer verfügbare Konversationsmodus: Die Nutzer:innen der Plattform haben seitdem die zusätzliche Option, Untertitel mit erhöhter Geschwindigkeit zu aktivieren und so ein Gespräch in Echtzeit zu führen. Die Untertitel erscheinen bei der Hin- und Zurückübersetzung mit einer laut Kudo maximalen Verzögerung von 1-2 Sekunden in der gewünschten Sprache auf dem Bildschirm. Ähnlich arbeitet schon seit Längerem das Tool Interprefy AI, mit dem das deutsche Unternehmen Silutions GmbH kooperiert. Die Kopfhörer von Silutions ermöglichen es dabei nicht mehr nur, den Umgebungslärm einer Kongress- oder Messehalle auszublenden und damit den Informationsfluss zu verbessern, sondern auch die Veranstaltung über bis zu 10 verschiedene Kanäle zu übersetzen. „Im Vergleich zu traditionellen Dolmetscher:innen ist [Audio-to-Audio-Übersetzung] effizienter und ermöglicht es Redner:innen, in ihrer Muttersprache zu sprechen. So bleiben die Botschaften echt und klar“, resümiert Jan Filipzik, Senior Manager Marketing & AI bei VOK DAMS Events und Live-Marketing. „Jeder Gast“, so Filipzik, „wird in seiner Sprache erreicht, ganz gleich, ob sie von vielen oder nur einem Teilnehmenden gesprochen wird. Sprachliche Hürden fallen weg und die Inhalte stehen im Vordergrund. Das steigert das Engagement und sorgt für mehr Zufriedenheit.“ Während moderne KI-gestützte Simultanübersetzungstools demnach also bereits viele Vorteile bieten, stehen die Technologien erst am Anfang ihrer Entwicklung. Dabei bewirkt die bloße Überwindung der Sprachbarrieren nicht gleichzeitig ein gegenseitiges Verständnis. Kontinuierliches Lernen und Feinabstimmung der Modelle auf domänenspezifische Daten sind deshalb wichtig für die Leistungsoptimierung, für die Erhöhung der Genauigkeit und die präzisere Kontextanalyse. Dabei helfen jede Nutzung und gezieltes Training – so, wie es die DLG gerade auf allen Expert Stages der EuroTier, EnergyDecentral und Inhouse Farming – Feed & Food Show umsetzt.

Justine Hein

Share this article

eMag bestellen