What question did this study set out to answer?

The aim is to assess how modern LLMs can assist simultaneous interpreters in preparing terminology glossaries.

February 11, 2026Open Access

Generating LLM-based glossaries from speakers' manuscripts for simultaneous interpreting assignments

Key Points

The aim is to assess how modern LLMs can assist simultaneous interpreters in preparing terminology glossaries.
Examined three LLM platforms: ChatGPT Plus, Google AI Pro, and Microsoft Copilot Pro.
Conducted experiments extracting glossary entries from texts in social sciences and law.
Evaluated extraction performance based on completeness and factual accuracy using a manual benchmark.
All three LLMs successfully created useful glossaries, with performance varying by entry category and platform.
Gemini 2.5 Pro achieved the highest F1-scores and translation quality in most categories.
GPT-4.1 demonstrated strong extraction but was slightly less effective than Gemini with longer contexts.

Abstract

Simultandolmetscher:innen sind bei Einsätzen mit starker kognitiver Belastung konfrontiert und müssen möglichst rasch auf präzise Terminologie zugreifen können. Bislang haben Dolmetscher:innen zu diesem Zweck manuell Glossare erstellt, was jedoch zeitaufwendig und nur bei ausreichender Vorbereitungszeit möglich ist. Jüngste Fortschritte im Bereich der Künstlichen Intelligenz (KI) und der Entwicklung von Large Language Models (LLMs) stellen in Aussicht, dass die Glossarerstellung automatisiert oder zumindest teilautomatisiert werden kann. Allerdings mangelt es an systematischen Untersuchungen zu entsprechenden Funktionalitäten von LLMs. Die vorliegende Arbeit untersucht, inwieweit moderne LLMs Simultandolmetscher:innen bei der Terminologievorbereitung unterstützen können. Eingangs werden einschlägige Tools und Technologien vorgestellt, wobei plattformspezifische Faktoren wie Kontextfenstergröße, Datenschutzoptionen und Benutzeroberfläche berücksichtigt werden. Anschließend wird erörtert, welche Eintragskategorien ein Glossar für Dolmetschzwecke idealerweise enthalten sollte, und wie LLMs mit zielgerichteten Prompts angeleitet werden können, diese Kategorien sortiert aus Ausgangstexten zu extrahieren. Die Studie vergleicht konkret, wie drei abonnementbasierte Plattformen – ChatGPT Plus von OpenAI (GPT-4.1), Google AI Pro (Gemini 2.5 Pro) und Microsoft Copilot Pro (GPT-4, GPT-4 Turbo) – der spezifischen Aufgabe gerecht werden, zweisprachige Glossare (Englisch–Deutsch) für akademische Vortragsmanuskripte zu generieren. Evaluiert werden die Extraktion von Named Entities, Termini (Einzelnomen und nomenlastige Mehrwortbenennungen/Phrasen) sowie ausgewählten Hybridkategorien (Akronyme/Initialwörter, Zitate) auf Basis eines manuell erstellten Benchmarks, sowie deren maschinelle Übersetzung. Das Studiendesign entspricht einem Experiment, bei dem die LLMs beauftragt wurden, Glossareinträge aus einem englischen sozialwissenschaftlichen Korpus (zwecks Prompt-Testung) und rechtswissenschaftlichen Korpus (zwecks Prompt-Validierung) zu extrahieren, und diese anschließend ins Deutsche zu übersetzen. Die Extraktionsleistung der LLMs wurde anhand des Benchmarks in Bezug auf Vollständigkeit und sachliche Richtigkeit bewertet, während die Qualität der Übersetzungen primär auf sachliche Richtigkeit, kontextuelle Angemessenheit und praktische Nutzbarkeit für Dolmetschsituationen überprüft wurde. Die Ergebnisse zeigen, dass alle drei LLMs nützliche Glossare erstellen konnten, die Leistung aber je nach Eintragskategorie und Plattform variierte. Auf Basis des Validierungs-korpus erzielte Gemini 2.5 Pro die insgesamt überzeugendsten Ergebnisse mit den höchsten F1-Scores und den besten Übersetzungsleistungen in den meisten Kategorien. GPT-4.1 lieferte ebenfalls eine durchgehend starke Extraktionsleistung, zeigte sich jedoch etwas schwächer als Gemini, was die Analyse längerer Kontexte und den Umgang mit größeren Mengen an Named-Entity- und Termkandidaten betraf. Im Vergleich zu den beiden anderen LLMs lieferte Copilot Pro Übersetzungen in gleicher oder sogar besserer Qualität für manche Kategorien und Einträge, erwies sich jedoch als weniger leistungsstark bei der Named-Entity- und Term-extraktion. Insgesamt ergab die Studie, dass LLMs erfolgreich eingesetzt werden können, um den Vorbereitungsaufwand von Dolmetscher:innen zu reduzieren. LLM-generierte Glossare dienen als wertvolle Hilfsmittel, wenn auf Grund begrenzter Vorbereitungszeit keine Möglichkeit besteht, Vortragsmanuskripte vollständig zu lesen und durchzuarbeiten. Allerdings enthalten LLM-generierte Glossare mitunter irrelevante oder redundante Einträge, auf Halluzinationen der LLMs basierende Items, fehlerhafte Hintergrundinformationen oder irreführende Übersetzungen, sodass sie von den Dolmetscher:innen mit Vorsicht – und nach Möglichkeit nur nach ausreichender Überprüfung – genutzt werden sollten.

Generating LLM-based glossaries from speakers' manuscripts for simultaneous interpreting assignments

Key Points

Abstract

Cite This Study