Natural Language Generation

Computergesteuerte Erzeugung natürlicher Sprache bei zappmedia

Was bedeutet Natural Language Generation (NLG)?

Zusammenfassung

Natural Language Generation (NLG) bezieht sich auf die computerlinguistische Erzeugung von natürlicher Sprache. NLG-Programme generieren maschinell geschriebene oder gesprochene Texte auf Basis von strukturierten Sprachdaten.

NLG ist in Inhaltsbestimmung, Textgenerierung und Sprachausgabe unterteilt. Zur Sprachausgabe werden Text-to-Speech-Systeme verwendet.

Die Zukunft der Sprachsynthese liegt im unüberwachten Lernen der KI, das eine menschenähnliche Stimmqualität ermöglicht und die emotionale Dimension des Textes berücksichtigt. Dies verspricht eine natürlichere und ausdrucksstärkere Sprachausgabe.

Die computerlinguistische Erzeugung von natürlicher Sprache wird mit der Abkürzung NLG für den englischen Begriff Natural Language Generation bezeichnet. NLG-Programme generieren maschinell geschriebene oder gesprochene Texte auf der Grundlage von strukturierten Sprachdaten. Die automatisierte Textgenerierung, auch Textsynthese genannt, ist ein Teilbereich der Computerlinguistik, der linguistische Regelwerke und umfangreiche Sprachdatenbestände mit Deep-Learning-Prozessen künstlicher Intelligenz verknüpft.

Mit automatischer Textproduktion können digitale Inhalte aus vorgegebenen Wissensdatenbanken wie Wetterberichte oder Börsenticker generiert, maschinelle Übersetzungen angefertigt oder Antworten auf zuvor eingegebene Fragen erstellt werden, beispielsweise im Rahmen eines IVRS-Dialogs zwischen Mensch und Maschine.

In interaktiven Sprachdialogsystemen (IVRS) verwenden NLG-Prozesse das Ergebnis von Natural Language Understanding (NLU), um automatisch passende Texte oder Sprachausgaben als Antwort auf eine Spracheingabe zu generieren. Soll die Textausgabe in gesprochener Sprache erfolgen, wird sie im Rahmen der NLU-Prozesse durch Text-to-Speech-Dienste in ein akustisches Sprachformat umgewandelt.

Komplexe Beispiele für interaktive Sprachdialogsysteme sind Alexa, Siri oder maschinelle Dolmetschsysteme, sogenannte Computer-Assisted Interpretation Tools. CAI-Software ergänzt Übersetzungsmaschinen um Spracherkennungsmodule und Sprachausgaberoutinen.

In welche Teilbereiche ist NLG untergliedert?

NLG ist ein mehrstufiger Prozess, der in folgende Teilbereiche untergliedert ist:

  • Bestimmung der Inhalte
    • Datenextraktion und Inhaltsanalyse
    • Mustererkennung und Datenabstraktion
  • Textgenerierung
    • Strukturierung der Daten
    • Satzaggregierung
    • Grammatische Strukturierung
  • Sprachausgabe
    • Phonetische Transkription
    • Digitale Signalverarbeitung
    • Signalmodellierung

Zur Erzeugung natürlicher Sprache werden vorwiegend rekurrente neuronale Netze wie das Markov-Modell oder LSTM-Algorithmen eingesetzt. Sie liefern die statistischen Modellierungsalgorithmen für die Auswahl und Interpretation der Sprachdaten, die für die konkrete Textausgabe benötigt werden.

Bestimmung der Inhalte

In einem ersten Schritt werden alle verfügbaren, maschinenlesbaren Datenbestände daraufhin gefiltert, welche Inhalte in den zu generierenden Text aufgenommen werden sollen. Außer Themenfiltern werden hierbei auch Algorithmen eingesetzt, die inhaltliche Entscheidungen treffen und Informationen vorsortieren.

In dieser Phase sind die Menge und die Qualität der zugrunde liegenden maschinenlesbaren Sprachdatensätze von zentraler Bedeutung. Denn eine adäquate Auswahl passender Inhalte gelingt nur bei umfangreichen und ausreichend trainierten Ausgangstextkorpora.

Die als relevant eingestuften Inhalte werden anschließend interpretiert und in einen logischen Kontext gesetzt. Dieser Dekodierungsvorgang erfolgt mittels Mustererkennung und Ähnlichkeitsanalyse. Dabei kommen dieselben NLU-Verfahren zur semantischen Analyse und Bedeutungsextraktion zum Einsatz, wie beim automatischen Sprachverständnis.

Wenn eine syntaktische Spracherkennungsgrammatik (SRGS) hinterlegt ist, entfällt dieser Schritt. Stattdessen kann direkt auf die Satzmuster zugegriffen werden, die in der SRGS kodiert sind. Auf diese Weise kann der zu generierende Zieltext ohne Einsatz rechenintensiver KI-Modelle schnell und zuverlässig ermittelt werden.

Strukturierung der Daten

Als nächstes wird ein strukturierter Dokumentplan erstellt, der dem angeforderten Ausgabeformat entspricht, also z.B. ein Börsenbericht, eine Kunden-E-Mail oder eine tabellarische Zugverbindung. Dazu gehört auch die Festlegung der Reihenfolge, in der die ausgewählten Informationen präsentiert werden sollen. Bei Vorliegen einer SRGS wird in diesem Schritt die passende Antwort aus einer Liste zugeordneter Prompts ausgewählt.

Satzaggregierung

Die vorstrukturierten Textelemente werden anschließend so zusammengefügt, dass sie semantisch plausibel verknüpft sind und einem natürlichen Textfluss folgen. Dabei können mehrere Sätze zu einem Satz zusammengefasst werden und Satzteile entfallen.

Grammatische Strukturierung

Dieser NLG-Schritt umfasst alle Verfahren, die zur linguistischen Ausgestaltung des Zieltextes erforderlich sind. Zunächst werden die zu verwendenden Wörter ausgewählt und mit referenziellen Ausdrücken verknüpft. Hier fließen auch Entscheidungen über adäquaten Stil und Ansprache ein. Anschließend werden linguistische Regelwerke zur Sicherstellung korrekter Tempi, Modi, Syntax und Orthografie angewendet.

Sprachausgabe

Am Schluss der automatischen Textproduktion steht die Erstellung einer Datei im gewünschten Ausgabeformat. Wenn der Text akustisch ausgegeben werden soll, schließt sich jetzt noch eine Sprachsynthese an.

Wie kann Text in Sprache umgewandelt werden?

Zum Umwandeln von Text aus einer schriftlichen Zeichenkette in ein akustisches Sprachsignal werden Sprachsynthesesysteme eingesetzt. Der Vorgang der Sprachsynthese wird auch Text-To-Speech, kurz TTS, genannt. Voraussetzung für die Erzeugung akustischer Sprachausgaben sind maschinenlesbare, strukturierte Textdaten und ein umfangreiches Sound-Inventar an aufgenommenen Sprachsegmenten.

Was bedeutet Sprachsynthese?

Ein Sprachsynthesesystem dient zur maschinellen Nachbildung der menschlichen Sprechstimme. Es besteht aus zwei Grundkomponenten. Im ersten TTS-Schritt, der NLP-Komponente, wird der Text aus einer Zeichenkette in eine phonetische Repräsentation überführt. Dieser Prozess wird auch phonetische Transkription genannt.

Der zweite TTS-Schritt umfasst die digitale Signalverarbeitung, kurz DSP. Mithilfe dieser DSP-Komponente wird aus der phonetischen Repräsentation ein akustisches Sprachsignal erzeugt.

Diese beiden Grundkomponenten gliedern sich in mehrere Verarbeitungsschritte.

Welche Prozesse kommen bei der phonetischen Transkription von Zeichenketten zum Einsatz?

Die phonetische Transkription von Zeichenketten besteht aus einem dreistufigen Prozess. Der eingegebene Text wird zunächst analysiert und in das maschinenlesbare SSML-Format Speech Synthesis Markup Language überführt. Anschließend werden die so kodierten Zeichenketten in phonetische Beschreibungen übertragen und mit prosodischen Merkmalen versehen.

Textanalyse

Die Textanalyse umfasst dieselben Verfahren zur Informationsextraktion, die auch bei NLU-Prozessen zum Einsatz kommen. Im Anschluss an die Tokenisierung und Lemmatisierung der erfassten Zeichenketten wird bei der TTS-Verarbeitung jedoch zumeist nur ein reduziertes POS-Tagging mithilfe von Worthypothesegraphen und eine flache Syntaxanalyse von Chunk-Strukturen angewendet.

Die vereinfachte Ermittlung von Satzzusammenhängen beruht im Wesentlichen auf Wahrscheinlichkeitsberechnungen anhand von umfangreichen Vergleichsdatenbeständen. Dieses TTS-Verfahren hat sich besonders für die Generierung gesprochener Sprache als vorteilhaft erwiesen. Es gestaltet sich weniger aufwändig und rechenintensiv, berücksichtigt die Intonation der sprachlichen Einheiten und ist gerade bei fehlerhaftem Input toleranter und robuster.

Phonologische Analyse

Nach Abschluss der Textanalyse werden die ermittelten sprachlichen Segmente mit Aussprachemerkmalen verknüpft. Zur Bestimmung der Aussprache der einzelnen Elemente können je nach Sprache zwei verschiedene Verfahren eingesetzt werden.

Zum einen ist ein Abgleich mit umfangreichen Morphem-Wörterbüchern möglich, die alle möglichen Wortformen einer Sprache enthalten. Ein anderer Ansatz verfolgt die Aussprache-Kodierung anhand von Regeln zur Umwandlung von Buchstaben in Phoneme. Bei diesem Verfahren werden nur Ausspracheausnahmen von den Regeln in ein Lexikon aufgenommen. Der regelbasierte Ansatz ist wesentlich weniger datenintensiv und flexibler in der Anwendung, dafür aber auch unschärfer. Er ist besonders für Sprachen mit sehr regelmäßiger Schrift-Laut-Entsprechung wie zum Beispiel Spanisch geeignet.

Prosodische Phrasierung

Sprachsynthesesysteme sind mittlerweile in der Lage, maschinell generierte Sprache in einer Qualität auszugeben, die sich kaum noch von menschlichen Äußerungen unterscheidet. Damit eine natürlich klingende Sprachmelodie gelingt, ist die Klassifikation prosodischer Merkmale für die TTS-Ausgabe von zentraler Bedeutung.

Die prosodische Phrasierung bestimmt Intonation, Lautstärke, Tempo und Rhythmus der phonetisch kodierten Phrasen. Denn ein und dieselben Sätze können je nach Akzentuierung und Intonation völlig unterschiedliche Bedeutungen tragen. Im Deutschen beispielsweise steigt die Endintonation bei Fragen zum Phrasenende, während sie bei Aussagesätzen eher abfallend ist. Verneinungen können sich auf unterschiedliche Satzkomponenten beziehen oder gar ironisch gemeint sein, je nachdem, welches Satzelement betont wird.

Mithilfe der Prosodierung wird der Fokus einer Aussage bestimmt und festgelegt, welches Satzelement wie betont werden soll. Außerdem werden Satzgrenzen und Satzmodi definiert, um die Grundfrequenz einer Äußerung eindeutig zu modellieren. Schließlich werden auch Sprechtempo und Lautstärkeschwankungen festgelegt. Besonders die Sprechgeschwindigkeit, die Dauer der einzelnen Sprachelemente und die Pausen zwischen den Äußerungen sind zentrale Elemente der Prosodiegenerierung. Denn die Grenzen, Akzente und Rhythmik einer Phrase bestimmen, ob eine Audio-Sprachausgabe am Ende gut zu verstehen ist und einen angenehmen Sprechfluss aufweist.

Die Prozesse der phonetischen Transkription und Prosodierung von Zeichenketten können entfallen, wenn der Ausgangstext nicht manuell oder akustisch eingegeben, sondern maschinell generiert wurde. Bei einer vollständig automatisierten Sprechtextgenerierung, dem Concept-To-Speech-Verfahren, bildet die phonetisch-prosodische Repräsentation bereits einen festen Bestandteil der SSML-Kodierung.

Was ist digitale Signalverarbeitung DSP?

Die digitale Signalverarbeitung erzeugt aus der zuvor erstellten phonetisch-prosodischen Repräsentation akustische Lautfolgen. Dabei wurden in der Vergangenheit zwei verschiedene Ansätze verfolgt. Der erste DSP-Ansatz besteht in der artikulatorischen Sprachsynthese, einem rein elektronischen Verfahren, mit dem die menschliche Lauterzeugung maschinell nachgebildet wird. Diese Methode der digitalen Signalverarbeitung ist sehr rechenaufwendig, kostspielig und bisher noch nicht für Echtzeitanwendungen geeignet.

Die meisten industriell und kommerziell genutzten Sprachsynthesesysteme setzen aus diesem Grund den zweiten DSP-Ansatz ein, die Signalmodellierung. Im Unterschied zur artikulatorischen Methode arbeitet das Verfahren der Signalmodellierung mit bereits vorhandenen Sprachsignalen ohne Berücksichtigung ihrer Erzeugung.

Wie funktioniert die Signalmodellierung?

Bei der Signalmodellierung werden im Voraus aufgezeichnete Sprachsamples analysiert, kombiniert und in Tonlage, Intonation und Satzmelodie modifiziert.

Die verschiedenen Methoden der Signalmodellierung greifen dazu auf große Audiodatenbankbestände zurück, in denen die einzelnen Sprachsegmente mit akustischen und linguistischen Eigenschaften kodiert sind. Bei den kodierten Lautsegmenten handelt es sich um kleine Sprachfragmente wie Diphone, Morpheme, Silben oder Wörter. Da diese Inventarelemente aus verschiedenen Äußerungen stammen, unterscheiden sie sich in Lautstärke, Grundfrequenz und Betonung.

Diese Unterschiede werden in einem ersten Verarbeitungsschritt, der Normalisierung, ausgeglichen, damit sie beim Aneinanderfügen der einzelnen Lautsegmente nicht mehr hörbar sind. Außerdem werden im Rahmen der Normalisierung stimmliche Merkmale von emotionalen Inhalten gekennzeichnet, um eine natürlichere Sprachmelodie zu erreichen.

In einem zweiten Verarbeitungsschritt werden die normalisierten Inventarelemente schließlich zum eigentlichen Sprachsignal verknüpft. Je nach der Verknüpfungsmethode werden verschiedene Arten von Signalmodellierung unterschieden.

Regelbasierte parametrische Sprachsynthese

Bei der regelbasierten Sprachsynthese werden Sprachaufnahmen auf ihre lautlichen Eigenschaften hin analysiert und geeignete Parameter wie Amplitude, Frequenz und Bandbreite abgeleitet. Anhand dieser Parameter werden für jeden Laut dann die gewünschten Eigenschaften erzeugt. Diese Methode der Sprachsynthese wird auch Quelle-Filter-Modell genannt. Sie wird häufig in Szenarien eingesetzt, in denen nur begrenzte Sprachdaten zur Verfügung stehen oder die verfügbaren Rechenressourcen begrenzt sind und eine geringere Sprachqualität akzeptabel ist.

Datenbasierte konkatenative Sprachsynthese

Die datenbasierte Sprachsynthese beruht auf der Konkatenation von kleinen Sprachsegmenten unter Berücksichtigung von Lautübergängen. Hierzu wird eine Abfolge von Inventarelementen mit Hilfe von Deep-Learning-Verfahren modelliert. Das Modell kann die am besten geeigneten Sprachsegmente auf der Grundlage des umgebenden linguistischen Kontexts vorhersagen und zu natürlich klingenden Sprachausgaben zusammenfügen.

Die konkatenative Sprachsynthese eignet sich gut für die Erstellung qualitativ hochwertiger Sprache, die der menschlichen Sprache sehr ähnlich ist. Sie erfordert jedoch eine große Datenbank mit aufgezeichneter Sprache und ist sehr rechenintensiv. Diese Methode ist für die direkte Verarbeitung von Sprachsignalen konzipiert und wird deshalb häufig für Speech-To-Speech-Anwendungen wie Übersetzungsmaschinen oder maschinelle Dolmetschsysteme eingesetzt.

Datenbasierte neuronale Sprachsynthese

Bei der Sprachsynthese auf der Grundlage neuronaler Netze handelt es sich um einen mehrstufigen Prozess, bei dem große Sprachdatenkorpora speziell trainiert werden, bevor sie zur Modellierung des Sprachsignals eingesetzt werden. Zur Vorbereitung der Sprachsegmente in der Datenbank gehört hier neben der Normalisierung auch die Konstruktion einer Netztopologie einschließlich der Anzahl der Deep-Learning-Schichten, der Anzahl der Neuronen in jeder Schicht und der verwendeten Aktivierungsfunktionen.

Das Zusammenstellen und Kodieren der Tainingsdaten sowie das anschließende Training der Modelle mit den vorkonfigurierten Lerndaten wird von speziell geschulten Fachkräften der Tontechnik und Sprachaufnahme vorgenommen. In der Trainingsphase wird mit der Methode des überwachten Lernens (Supervised Learning) die Gewichtung der Verknüpfung zwischen den Neuronen angepasst, um die Sprachausgabe entsprechend den Zielvorgaben zu optimieren.

Die auf neuronalen Netzen basierende Sprachsynthese ist sehr vielseitig und kann qualitativ hochwertige Sprachausgaben produzieren, die der menschlichen Sprache sehr ähnlich sind. Allerdings erfordert die neuronale Signalmodellierung neben einem umfangreichen Sound-Inventar an aufgenommenen Sprachsegmenten eine große Menge an Trainingsdaten und erhebliche Rechenressourcen.

Diese Methode wird vorwiegend für großangelegte Text-to-Speech (TTS)-Anwendungen und interaktive Sprachdialogsysteme ohne fachspezifische Ausrichtung verwendet, da sie eine breite Palette von Eingabetexten verarbeiten kann.

Die Zukunft der Sprachsynthese (Stand Mitte 2023)

Der Schlüssel zur menschenähnlichen Stimmqualität ist das unüberwachte Lernen der KI, das sogenannte Unsupervised Learning: Das KI-Modell wird mit umfangreichen Textdatenmengen gespeist und lernt nach und nach autonom, welche Gefühle in einer Aussage versteckt sind.

Diese emotionale Dimension ist von zentraler Bedeutung, um einen Text auf eine Weise zu präsentieren, die menschenähnlich wirkt. Im Unterschied zu früheren Formen des maschinellen Lernens erfordert Unsupervised Learning keine menschlichen Assistenten, die in ständigen Captcha-Kreisläufen Textsegmente und Gefühle mühsam miteinander verknüpfen müssen. Stattdessen kann die KI diese Verbindungen eigenständig herstellen.

Dabei berücksichtigt diese Art der Sprachsynthese den emotionalen Kontext des gesamten Textes, um zu bestimmen, wie einzelne Sätze und Wörter betont werden müssen. Die von zappmedia im Text-to-Speech-Service verwendeten Stimmen resultieren aus genau dieser Form der Sprachsynthese.

 

Wir beraten Sie gern bei der Wahl des optimalen Verfahrens für die Vertonung Ihrer Texte (TTS-Service).

valid ISO-Qualität und -Sicherheit

Optimierte Produktionsabläufe Erfahrene ProjektleiterInnen in unserem Hause übernehmen die Vorbereitung der Texte sowie das komplette Termin-Management und sind zuverlässige Ansprechpartner für unsere Kunden.

Unser Qualitätsmanagement ist nach ISO 9001 zertifiziert, unser Informationssicherheitsmanagement ist konform zu ISO 27001.

tuv-logo iso-logo

folderReferenzen

Führende Unternehmen nutzen unseren Service seit vielen Jahren:

  • Industrie
  • Technologie
  • IT
  • Chemie/Pharma
  • Medien
  • Consulting
  • Handel
  • Finanz
  • Logistik
  • Wissenschaft
  • Organisationen
  • Dienstleistung
zappmedia Referenzen