Wie NTV aus Artikeln automatisch Podcasts generiert

Seit einem halben Jahr testet RTL die automatische Erzeugung von Podcasts mit Hilfe von Generative AI.

Frank Puscher | 08.05.2023

Unter dem Foto zum Artikel über BMW ist deutlich der Abspielknopf für das Audioformat zu sehen. Für Menschen mit Sehbehinderung fungiert das als besserer Screenreader

Das Besondere: Die Podcasts werden mit Stimmen erzeugt, die echten Moderatoren gehören. Das soll die Marke NTV erkennbar machen und die Akzeptanz bei den Hörern fördern.

„Die Technologie kann nicht mehr aufgehalten werden. Synthetische Stimmen sind jetzt da. Wenn wir jetzt nicht unsere Erfahrungen sammeln, macht es ein anderer und wir verlieren unseren Vorsprung“. Tatjana Anisimov verantwortet bei RTL eines der spannendsten Medienprojekte dieser Tage. Sie wandelt vollautomatisch 20 bis 25 Artikel täglich aus den Ressorts Politik und Wirtschaft in Podcasts um. Eine Menge, die in klassischer Produktionsweise kaum zu bewältigen wäre, nicht einmal mit einem extra dafür eingestellten Sprecher. Aber mit Generative AI geht das.

Text-to-Speech ist nicht neu. Seit zwanzig Jahren forschen Linguisten und IT-Wissenschaftler an Methoden, mit deren Hilfe es gelingt, Texte so in Sprache zu verwandeln, dass sie von Nutzern gerne gehört werden. Für einfache Texte mit überschaubarem und vor allem vorhersehbarem Vokabular gelingt das ordentlich, wie man an der Sprachausgabe der Navigationssysteme leicht sehen kann bzw. hören kann. Aber wer hat nicht schon die freundliche junge Dame aus Google Maps dabei ertappt, wie sie Straßennamen falsch ausspricht. Die Tel-Aviv-Straße in Köln heißt bei ihr Telefon-Aviv-Straße.

Das ist ein typischer Fehler. Für sich genommen steht das Kürzel „Tel“ in den allermeisten Fällen für „Telefon“, aber eben nicht immer. Und man kann unmöglich per Ohr alle Straßennamen in Deutschland durchtesten. Laut Straßenweb sind es knapp 1,2 Mio. Straßennamen, die man sich anhören müsste.

Andere Problemfelder für die Sprachausgabe sind Abkürzungen oder der Wechsel der Sprache innerhalb eines Kontexts. Französische Straßennamen in deutschen Städten sind für Google Maps eine echte Herausforderung.

Das Projekt Article2Podcast

Marketer vor allem Brand-Marketer zucken unwillkürlich zusammen. Solche Fehler dürfen in einem Audio-File nicht vorkommen, wenn eine Marke als Absender dahintersteht. Medienmarken sind in dieser Hinsicht noch sensibler, denn es gibt die latente Angst davor, der mangelnden Qualität in der Produktion bezichtigt zu werden. Das könnte – Stichwort Lügenpresse – auch auf die vermutete inhaltliche Qualität eines Mediums abfärben und die Marke enorm beschädigen.

Vielleicht kann kein mediales Experiment das Spannungsfeld zwischen Innovation und vermutetem Risiko besser zeigen, als das Podcast-Projekt von RTL. Vor zwei Jahren hat man gemeinsam mit Microsoft und Appsfactory begonnen daran zu arbeiten, die Stimmen von Moderatoren zu digitalisieren. Zeitgleich hat auch der WDR ein ähnliches Experiment gestartet mit der in NRW extrem populären Moderatorin Steffie Neu. Doch während RTL mit seiner Tochter NTV aus dem Experiment heraus begann, realen Content für die Website und die Podcast-Plattformen zu generieren, entschied man sich am Appellhofplatz in Köln dazu, nicht live zu gehen.

Tatjana Anisimov ist Product Innovation Manager bei RTL Deutschland

Zwei Moderatoren hat Tatjana Anisimov synthetisiert. Maik Meuser ist ein bekannter Host und Anchor-Man im klassischen Nachrichten-Fernsehen von NTV. Inken Wriedt beschäftigt sich dagegen mehr mit Boulevard-Themen und hat bereits Podcast-Erfahrung. Letzten Sommer moderierte sie beispielsweise einen Podcast zur RTL-Produktion „Die Bachelorette“.

Von beiden Sprechern war sehr viel produziertes Sprachmaterial vorhanden, beide bekamen allerdings auch noch eine Reihe von Texten zum Einlesen. Und während Meuser Nachrichtentexte las, sprach Wriedt Märchentexte ein. Ein Fehler, wie sich im Nachhinein herausstellte. „Da haben viele Nutzer gesagt, dass ihnen das Ergebnis zu sehr nach Erzählstimme klingt“, sagt Tatjana Anisimov heute. Was im Grunde wie ein Kompliment für die Arbeit der Digitalisierer klingt, wird dann zum Problem, wenn es um Texte geht, die nachrichtlicher Natur sind. Für das automatisierte Produzieren von Hörbüchern könnte die Stimme von Inken Wriedt dagegen funktionieren.

Nach der Digitalisierung der Stimmen und einer längeren Trainings- und Vorbereitungsphase, ist die synthetische Podcast-Erzeugung seit November 2022 auf ntv.de im Einsatz. „Wir haben die Funktion noch nicht wirklich beworben. Es gibt nur eine Art Feature-Hint, zum Beispiel an User:innen der App“, sagt Anisimov. Sie wollte Zeit und Ruhe haben, herauszufinden, welche Artikel sich besser eignen als andere und sie wollte auch die Stimmmodelle weiter verbessern.

Die Learnings

Einen Weg zurück gibt es für Anisimov allerdings nicht. Ob die Text2Pocast-Produktion in dieser Form weitergeführt wird oder nicht, spielt keine Rolle. Das Potential der Technologie ist hinreichend deutlich geworden und schon heute genügt den meisten NTV-Hörern die Qualität. Schon heute? In der Tat erwarten Sprachforscher, dass sich die Hörgewohnheiten der Menschen und damit deren Anspruchshaltung in den nächsten Jahren signifikant ändern wird, wenn man sich immer mehr an die Omnipräsenz künstlicher Stimmen gewöhnt.

Die überragende Erkenntnis aus Sicht von RTL war also, dass der Ansatz funktioniert. „Ziel ist es, eine weitgehende Vollautomatisierung für NTV zu schaffen. NTV veröffentlicht täglich 70 bis 100 Artikel“, sagt Anisimov. Gerade arbeitet sie schon am Folgeprojekt, nämlich den personalisierten Nachrichtenblöcken. Nutzer der App können ihre Lieblingsthemen konfigurieren und sich dann jeden Morgen oder Abend das persönliche News-Briefing abholen.

Dieser Ansatz ist wegweisend auch für die Marketing-Branche. Neben den Möglichkeiten schneller mehr Content durch Generative AI zu erzeugen, ist vor allem die Idee der automatisierten Personalisierung eine, die die Augen der Marketer zum Leuchten bringt.

Tatjana Anisimov sieht aber auch noch ganz andere Vorzüge, die zwar auch etwas mit Effizienz zu tun haben, aber eher indirekt. „Wir konnten einen echten Mehrwert für unser Online-Angebot vor allem für Menschen mit Seheinschränkungen schaffen, da wir zuvor noch keine Vorlesefunktion hatten“. Mehr Inklusion durch KI.

Auf dem Weg von November 2022 bis heute hat man bei RTL viel gelernt. Schon von Anfang an war klar, dass es einen rechtlichen Rahmen und ein Vergütungsmodell für die Nutzung der künstlichen Stimmen braucht. Maik Meuser behielt sich vor, dass seine Stimme nur bei Wirtschafts- und Politthemen eingesetzt wird. Alles andere würde nicht passen.

Revidieren musste Anisimov die These, dass es für die Hörer wirklich eine Rolle spielt, wer da vorliest. „Tatsächlich haben unsere Nutzerumfragen aber gezeigt, dass viele Hörer die Stimmen nicht konkreten Menschen zuordnen“, sagt die Wahlkölnerin. Die Menschen, die die Website nutzen und vorgelesenen Texte hören sind andere, als die die das Fernsehprogramm sehen. Wichtiger sind die Qualität und Fehlerfreiheit der Aussprache, sowie eine gefühlte Authentizität der Stimme. Im Falle von Nachrichten also eher nüchtern, neutral und weniger wie die eines Hörbuchsprechers oder einer Sprecherin.

Die Qualität im Endergebnis ist noch nicht so, wie Tatjana Anisimov sie gerne hätte. „Fremdwörter müssen fehlerfrei ausgesprochen werden, die Satzzeichen müssen richtig ausgelesen werden. Das funktioniert immer noch nicht perfekt“. Vor allem bei Fremdwörtern oder den Namen internationaler Wirtschafts- und Politgrößen, muss das Team in Köln nacharbeiten.

Es gibt ein eigenes Redaktionssystem, ähnlich dem, was Übersetzer nutzen, in dem die KI selbst markiert, welche Worte Probleme bereiten. Diese werden dann von Redakteuren abgehört und bei Bedarf korrigiert. Die Korrektur erfolgt zum Beispiel durch das zusätzliche Setzen von Pausen, um den Rhythmus des Gesagten zu ändern. Oder durch die Eingabe von Begriffen in Lautschrift, um die Aussprache zu korrigieren. Aus dem Bachelor wurde so der „Bätscheler“. „All diese „eingedeutschten“ Korrekturen sammeln wir und hinterlegen diese Regeln und Ersetzungen in Lexika, die an den künstlichen Stimmen hängen“, sagt Anisimov und beschreibt damit den Wettbewerbsvorsprung, den man sich durch dieses mutige Experiment erarbeitet.

Fazit

Das NTV-Projekt kann alles zeigen, was dieser Tage in Sachen Generative AI in der Diskussion steht. Das beginnt bei der Frage der Kennzeichnung. Geht es nach Anisimov, ist eine Kennzeichnung der virtuellen Produktion gerade im redaktionellen Umfeld unerlässlich.

Nicht jeder Content lässt sich in hoher Qualität digitalisieren. „Interviews funktionieren bislang gar nicht“, sagt Anisimov. Die Redakteure von NTV bestimmen selbst, welchen Text sie für vorlesbar halten.

Wer seine Stimme „at scale“ für virtuelle Produktionen zur Verfügung stellt, der hat auch ein Recht auf angemessene Bezahlung. Der Deutsche Sprecherverband hat hier bereits eine Liste mit Honorarvorschlägen ausgearbeitet.

Und natürlich braucht es sauber aufgesetzte Prozesse zur Qualitätssicherung, um ein möglichst konsistentes und zur Marke passendes Ergebnis zu erzielen. Die Arbeit mit Generative AI wird in der Summe vermutlich nicht weniger als ohne Künstliche Intelligenz, aber die Menge und vielleicht auch die Qualität des Outputs werden höher.

Pfiffige Künstler, wie die kanadische Sängerin Grimes fordern KI-Startups aktiv auf, mit ihren Stimmen neue Musik zu erzeugen. Ein kluger Schachzug, denn durch die öffentliche aktive Positionierung zu diesem Thema, macht Grimes auch den Weg frei für spätere Honorarforderungen. Anders als der KI-Hit von Drake und The Weeknd, der auf TikTok viral ging und bei beiden Künstlern stürmische Proteste hervorrief.

Für Tatjana Anisimov ist der aktuelle Hype um Generative AI ein Segen und allerhöchste Zeit. „Die neu entfachten Diskussionen rund um KI-Kompetenz begrüße ich daher sehr. Es ist an der Zeit, dass wir uns gesellschaftlich, politisch und ethisch damit auseinandersetzen.“