Text-to-Speech: Die Audio-Chance, die nicht ignoriert werden sollte

By Ann-Katrine Fredenslund | Feb 11 2021 | Insights | Cases | Media | Audio

Sie möchten sich den Artikel lieber anhören? Klicken Sie auf „Play“ und lassen Sie sich den Artikel von der Text-to-Speech Google Cloud Sprachsynthese vorlesen.

Audio- und gesprochene Inhalte machen in diesen Jahren bei Verlagen und Zeitungen so einiges an Furoren. Und kein Wunder: Lesen braucht Zeit und Konzentration – Mangelware in unserer modernen Welt. Gleichzeitig ist es wichtig, stets erreichbar zu sein – egal wo und wann.

Die deutsche, regionale Zeitung NOZ (Neue Osnabrücker Zeitung) und die Danish media group JFM, Jysk Fynske Medier, haben sich beide in den letzten Jahren intensiv auf die Audio-Sparte konzentriert.

Visiolink hat sich mit Patrick Körting, Head of Audio bei NOZ Digital, und Jørn Broch, Digital Editor bei JFM, über das Potenzial unterhalten, das sie persönlich in Audio und gesprochenen Inhalten sehen.

 

Sekundäre Nutzung von Medien

Der On-Demand-Konsum von Audio ist stärker als je zuvor, und die Beliebtheit der nicht-textuellen Nutzung setzt sich ungebremst fort. Den Lesern die Möglichkeit zu bieten, die Zeitung zu hören, wo und wann immer sie möchten, erhöht die Reichweite und das Interesse und trägt zu einem neuen Nachrichtenerlebnis bei.

NOZ und JFM arbeiten jeweils sowohl mit von Menschen eingesprochenen Artikeln, bei denen ein Sprecher eine gesprochene Version des Artikels aufzeichnet, als auch mit Podcasts und automatisierten, maschinell gesprochenen Text-to-Speech-Artikeln.

Bei JFM arbeiten wir seit einigen Jahren mit Audio. Unser Ausgangspunkt für die Arbeit mit Audio war, dass sich all unsere Angebote für die Verbraucher um die Aktivität des Lesens drehten. Wir wollten auch in anderen Nutzungsszenarien Relevanz bieten – zum Beispiel während der Fahrt, wo es so aussehen könnte, dass man innerhalb von 10 Minuten die Möglichkeit hat, sich die wichtigsten Nachrichten vorlesen zu lassen“, erklärt Jørn Broch.

Patrick Körting ergänzt dazu:

Wo das Lesen von Nachrichten von Natur aus eine aktive Art des Nachrichtenkonsums ist, ist das Zuhören passiv. In diesem Zusammenhang gibt es drei Fälle, in denen man niemals über ein textbasiertes Produkt mit Benutzern interagieren kann: Beim Autofahren, bei der Hausarbeit und bei der Morgenroutine. Das ist etwas, was die meisten von uns jeden Tag tun, und hier kann Audio eine Schlüsselrolle dabei spielen, jene Generationen zu erreichen, die ein On-Demand-Audioverhalten vorweisen, indem sie ihre eigene personalisierte Audio-basierte Playlist zusammenstellen.“

Meiner Meinung nach ist Audio schon lange kein optionales Ad-On mehr, für das sich Zeitungen entscheiden können. Es ist ein Must-Have-Feature, wenn man langfristig neue und jüngere Zielgruppen erreichen, Gewohnheiten ändern und damit letztlich überleben will“, legt Patrick Körting dar.

 

Verhaltensänderung beim Nachrichtenkonsum

Das Hören von Nachrichten gewinnt immer mehr an Relevanz – sowohl um mit bestehenden Nutzern in Kontakt zu treten als auch um neue Zielgruppen zu erreichen.

Laut Patrick Körting spielt Audio für NOZ aus drei Gründen eine wichtige Rolle.

Erstens haben wir eine enorme Belegschaft von 400 Kollegen, die alle daran arbeiten, jeden Tag eine große Menge an Nachrichteninhalten zu erstellen. Audio ist ein neues Zahnrad, um diese eigentlich geschriebenen Inhalte zu präsentieren. Zweitens gibt es eine Verhaltensänderung in der Art und Weise, wie Menschen Nachrichten und Inhalte konsumieren: Das Lesen von Nachrichten ist eine Möglichkeit des Konsums, aber auch neue Arten entwickeln sich – Audio ist eine davon. Drittens hat die technologische Entwicklung innerhalb der Text-To-Speech- und Aufnahmetechnologie in den letzten Jahren so große Sprünge gemacht, dass Audioinhalte jetzt günstig und kinderleicht zugänglich sind“, erklärt Patrick Körting und fährt fort:

Die drei Faktoren sind zusammen vielversprechend, und Audio passt perfekt zur modernen Welt und zum heutigen Medienkonsum in neuen Nutzungsszenarien, bei denen man mit anderen Dingen beschäftigt ist. Die parallele Nutzung ist der Schlüssel.“

Während sich jedoch das allgemeine Verhalten bei der Art und Weise des Nachrichtenkonsums ändert, braucht es Zeit, um die bestehenden Benutzer an das Hören von Nachrichten heranzuführen, betont Patrick Körting:

Man muss beachten, dass Audio im Laufe der Zeit zwar neue und jüngere Zielgruppen generieren kann, die Audio bereits in ihren Medienkonsum integriert haben, aber das Verhalten bestehender Benutzer zu ändern, erfordert eine grundlegende Änderung der Gewohnheiten.“

Was wir mit unseren Bestandskunden gemacht haben, ist, uns immer wieder darauf zu konzentrieren und zu erklären, dass es eine Audio-Option gibt, wo man diese findet und wie man diese nutzt, wie man eine Playlist zusammenstellt und welche Vorteile es hat, seine individuelle Nachrichtensendung beispielsweise bei einer Autofahrt vorlesen zu lassen. Auf diesem Wege können wir wirklich eine Zunahme der Zahl der Menschen feststellen, die Audio verwenden – aber es braucht Zeit und Ausdauer“, sagt er.

 

Kostengünstige Audioreichweite

Die Qualität von maschinell vorgelesenem Text-to-Speech hat sich in den letzten Jahren rasant verbessert und die technologische Entwicklung beschleunigt sich weiter. In Kombination mit dem Wert, Audioinhalte sowohl kinderleicht als auch zu einem günstigen Preis zu erstellen, ist Text-to-Speech sowohl für JFM als auch für NOZ relevant.

Text-to-Speech ist relevant, weil es keine Personalressourcen zur Audioaufzeichnung in unserem Unternehmen beansprucht. Angesichts der Anzahl der Artikel, die wir bei JFM erstellen, würde es viel zu teuer werden, wenn die Leute Zeit aufwenden würden, um alle Artikel einzusprechen“, sagt Jørn Broch, als er fortfährt:

Text-to-Speech hat vielleicht nicht den gleichen persönlichen Bezug wie ein von Menschen eingesprochener Artikel, aber stattdessen bekommt man eine kostengünstige Lösung und den Vorteil der Skalierung – und die Qualität nähert sich langsam, aber sicher der menschlichen Version an.“

Auch Patrick Körting weist auf die Qualität von Text-to-Speech hin.

Wir stellen fest, dass sich die Technologie so schnell entwickelt, dass man bald nicht mehr erkennen kann, ob man einem Menschen oder einer Maschine lauscht. Ich bin der festen Überzeugung, dass es innerhalb von wahrscheinlich nur zwei Jahren nahezu unmöglich sein wird, festzustellen, ob man einer Computerstimme oder einer menschlichen Stimme zuhört.“

Sie wollen auch mit Audio durchstarten? Erfahren Sie hier mehr über Text-to-Speech von Visiolink auf Basis von Google Cloud.


Ann-Katrine Fredenslund

Author

Ann-Katrine Fredenslund