Tutorials

Natural Language Generation - Machen Sie das Beste aus Ihren Produktdaten: Überzeugende Texte fĂŒr alle Touchpoints.

Textautomatisierung und Natural Language Generation (NLG) – wer Produktbeschreibungen oder andere Texte für sein eCommerce braucht, hat von diesen Begriffen sicher schon mal gehört. Schwebt da die Konnotation einer Content-Erzeugung in unfassbarer Geschwindigkeit mit, kann die Vorstellung von Textautomatisierung sehr verlockend sein.

Denn im allgemeinen Content-Prozess entpuppen sich Textprozesse sehr hĂ€ufig als eine empfindliche Achillessehne. Produkte und Services mĂŒssen ĂŒber unterschiedlichste Touchpoints publiziert werden und benötigen daher fĂŒr alle Touchpoints uniquen Content. Hier kommen die oben genannten Konzepte ins Spiel.

Aber was steckt eigentlich dahinter?

Zum Download

 

KI-gestĂŒtzte Automatisierung von Content

Aktuell in aller Munde: GPT-3 oder ChatGPT. Jeder hat die KI schon ausprobiert und beeindruckt geschaut, wenn da plötzlich auf Grundlage eines einfachen Befehls ein stilistisch einwandfreier Text zu einem Thema, ein Gedicht, eine Grafik oder Code ausgegeben wird.

Da scheint der Traum zum Greifen nahe: ich werfe einfach ein paar Schlagwörter in die Maschine und erhalte einwandfreie Produkttexte fĂŒr meinen Onlineshop. Schöne neue Welt.

Wenn ich nicht ganz so viele Produkte habe, die ich mit Text versorgen muss, dann kann ich das durchaus so machen – immer unter der Voraussetzung, dass die Texte eine inhaltliche Endkontrolle erhalten. Schließlich warnt nicht nur Forrester vor „coherent nonsense“, also kohĂ€renten, aber sinnlosen Inhalten. Da kann sich die Product Experience sehr schnell in die falsche Richtung entwicklen.

Denn die Texte mögen sich zwar stilistisch korrekt und natĂŒrlichsprachlich lesen, der Inhalt muss jedoch nicht immer stimmen.
So liest man in zwei von uns getesteten Szenarien davon, dass Papier ein nachwachsender Rohstoff sei. Oder eine Windjacke, fĂŒr die gar keine Farbe angegeben war, ist plötzlich in verschiedenen Farben erhĂ€ltlich.

Das Ergebnis ist also durchaus fragwĂŒrdig. Hinzukommen bisweilen rassistische oder diskriminierende Inhalte, die besser nicht veröffentlicht gehören. 

Schon lÀnger erprobt und vielfach umgesetzt: Textautomatisierung mit Data-to-Text

Bei der Data-to-Text-Technologie werden große Datenmengen (in strukturierter Form) mithilfe von Regelwerken in Text umgewandelt. Diese Regelwerke werden allerdings nicht von einer Maschine gebildet, sondern von einem Menschen, der sich mit der Technologie und der Materie, um die es geht, auskennt.

Dabei werden mit einem initialen Aufwand Daten (beispielsweise Produktdaten) interpretiert und ein Textmodell erstellt. Angepasst an KundenwĂŒnsche, SEO und individuelle sowie kanalspezifische Anforderungen wird das Textmodell mit Formulierungen angereichert. So entsteht Varianz, die dafĂŒr sorgt, dass die Inhalte hinterher unique sind und keinen Duplicate Content (DC) verursachen.

Der Aufwand von Data-to-Text ist – anders als bei GPT-3 – vor der Textproduktion angesiedelt. D.h. die Texte mĂŒssen hinterher nicht mehr kontrolliert werden, weil Fehler oder Ungereimtheiten schon im Vorfeld ausgeschlossen werden. Die finalen Texte sind unendlich vielfĂ€ltig, aber die QualitĂ€t ist jederzeit gesichert.

Voraussetzung fĂŒr Content mit Data-to-Text sind strukturierte Daten. Was das bedeutet, dazu spĂ€ter mehr.

Wie funktioniert automatisierte Texterstellung heute?

Zwei Technologien, zwei lernende Systeme.

GPT-3 ist eine KI, mit der sich aus einzelnen beschreibenden Schlagwörtern, wie Attributen, Content generieren lĂ€sst. Dabei stĂŒtzt GPT-3 sich auf enorme Mengen an Webinhalten, die als Trainingsdaten dienen.

Die darin enthaltenen Formulierungen werden nach einer Wahrscheinlichkeitsberechnung zu immer wieder neuen Texten zusammengewĂŒrfelt. Es entstehen grammatikalisch korrekte SĂ€tze und Texte, die wie schon erwĂ€hnt inhaltlich immer auf ihre Sinnhaftigkeit ĂŒberprĂŒft werden mĂŒssen.

Diese Technologie lohnt sich also nur fĂŒr einzelne Texte, nicht aber fĂŒr eine große Menge von beispielsweise Produkttexten fĂŒr einen Onlineshop.

Der Aufwand bei GPT-3 ist nachgelagert: hier ist es wichtig, jeden einzelnen Text nach der Ausgabe zu kontrollieren, weil der Output auch sinnlos oder sinnverzerrend sein kann (siehe oben).

Perfekt geeignet ist GPT-3 oder auch die offen zugĂ€ngliche ChatGPT fĂŒr die Erstellung von BlogbeitrĂ€gen, zur UnterstĂŒtzung beim kreativen Schreiben oder auch zur schnellen Erstellung einzelner Texte, die man vor dem Go-Live kontrollieren kann.

Data-to-Text hingegen lohnt sich, wenn strukturierte Daten vorliegen und beispielsweise ein grĂ¶ĂŸeres oder schnell drehendes Sortiment (wie z.B. im Modebereich) mit Produktbeschreibungen versorgt werden soll.

Denn wenn Sie Ihr Textmodell einmal aufgebaut und implementiert haben, können Sie bei einer neuen Kollektion einfach auf den Knopf drĂŒcken und bekommen einen ganzen Schwung neuer Texte fĂŒr Ihren Shop! Das ist Skalierbarkeit, die sich lohnt!

Das beste aus zwei Welten - der Hybrid-Ansatz

Kann ich die KI-UnterstĂŒtzung mit einem Data-to-Text- Modell verknĂŒpfen und so von beiden Technologien profitieren?

Ja, das Berliner Unternehmen Retresco macht es mit seiner textengine.io vor. Denn hier lassen sich regelbasierte Textelemente mit durch GPT-3 erzeugten Textpassagen verknĂŒpfen.

So kann ich sicherstellen, dass ich ein meiner eigenen TonalitĂ€t angepasstes, qualitĂ€tsgesichertes Textmodell erhalte, das zukunftsfĂ€hig, jederzeit skalierbar und passend fĂŒr meinen Anwendungsbereich ist.

Wo lÀsst sich Textautomatisierung gewinnbringend einsetzen?

Aber nicht nur Produktbeschreibungen lassen sich mit der Technologie realisieren. Auch automatisierte Kategorietexte, Berichte, BlogbeitrÀge, Newsletter uvm. sind mit einer Data-to-Text-Engine keine Zukunftsmusik mehr.

Voraussetzungen fĂŒr automatisiert erstellte Texte

Mit strukturierten Daten zum uniquen Text

Was Sie brauchen, um ein skalierbares, erfolgreiches Textautomatisierungsprojekt durchzufĂŒhren?

Daten, Daten, Daten.
Und zwar nicht irgendwelche Daten – strukturierte Daten. Sie sind die Grundlage fĂŒr eine Content Automation, die skalierbar und zukunftsfĂ€hig ist.

Wer schon mit einem PIM-System (Product Information Management) arbeitet, kann sich glĂŒcklich schĂ€tzen. Hier ist in der Regel kaum Aufwand nötig, um die Informationen nutzbar zu machen.

Wer noch mit einem eigenen System arbeitet oder gar auf verschiedene Datenmanagementtools zugreift, benötigt ggf. noch ein wenig UnterstĂŒtzung.

Der erste Schritt ist immer ein initialer Check der Daten auf ihre Tauglichkeit. Hier lohnt es sich, mit einem Experten zusammenzuarbeiten, denn es mĂŒssen einige Voraussetzungen erfĂŒllt sein.

Format

NLG-Software funktioniert mit strukturierten Formaten wie XLSX, CSV und JSON (je nach Anbieter).

WĂ€hrend AX Semantics CSV und JSON einliest, nutzt die textengine.io von Retresco das Excel-Format und lĂ€sst auch JSON-Dateien zu. Wer nur andere Formate wie XML zur VerfĂŒgung hat, kann ĂŒber kleinere Umwege auch diese umwandeln und nutzbar machen.

Das Format betrifft aber nicht nur die Art der Datei, sondern auch die Struktur dieser.

Dabei wird eine Datei mit folgendem Aufbau benötigt:

Attributsname Wert 1 Wert 2 Wert 3

Wobei die Attributsnamen (Datenfelder) in einer (der ersten) Zeile stehen und in den Zeilen darunter dann die jeweiligen Werte der entsprechenden Artikel.

Konsistenz

Die Daten und ihre jeweiligen Werte mĂŒssen konsistent, sprich einheitlich befĂŒllt sein. Soll heißen, dass in einem Datenfeld nur die Werte stehen dĂŒrfen, die in dieses Datenfeld gehören. Immer gleich geschrieben und möglichst fehlerfrei. Es sollten auch keine anderen, unpassenden Werte in einem Attribut untergebracht werden, die dort nicht hineingehören.

Z.B. wĂ€re ein Wert wie „Transparent“ nicht der „Farbe“ zuzuordnen, da es sich genau genommen nicht um eine Farbe handelt. Möchte man den Wert „Transparent“ aber unterbringen, wĂ€re ein Attribut wie „Optik“ o.Ă€. möglich.

Auch EintrĂ€ge wie „Rundhals“ und mal „Rundhals-Ausschnitt“ sind nicht konsistent. Es sollte bei der Datenpflege immer darauf geachtet werden, wie sich eine AusprĂ€gung in einen Satz einbinden lĂ€sst.

Daher ist es auch so wichtig, dass in einem Attribut entweder Substantive oder Adjektive enthalten sind und diese nicht vermischt werden.

GranularitÀt

Daten sollten möglichst granular und detailliert sein. Dabei ist zwischen Pflegeaufwand und möglichem Nutzen/Output abzuwĂ€gen. Ein sinnvolles Mittelmaß ist zu erreichen.

Haben Sie nur wenige Datenpunkte gepflegt, werden auch die Möglichkeiten fĂŒr den Text nur minimal sein. Wollen Sie aber eine detaillierte Beschreibung eines Produkts erreichen, brauchen Sie auch detaillierte Daten.

Aus dem vorangegangenen Tabellenbeispiel (S.5) kann beispielsweise ein kurzer Text entwickelt werden. Sollten mehr Informationen z.B. zur Optik enthalten sein, benötigt das Textauto-Team weitere Attribute und AusprÀgungen als die oben genannten.

Dabei sollte man immer im Blick haben, was man erreichen will: brauche ich nur einen Basistext (Essential Content) oder möchte ich bereits kreativere und abwechslungsreichere Texte (Creative Content) mit der Automatisierung erhalten?

BefĂŒllungsgrad

Attribute mĂŒssen befĂŒllt sein!

Nicht von der Hand zu weisen ist, dass die Attribute auch befĂŒllt sein mĂŒssen. Wer ein Fashionsortiment betexten möchte, aber nur spĂ€rliche Daten hat, wird mit der Textautomatisierung nicht weit kommen.

Daher: bei der Datenpflege schon darauf achten, dass alle wichtigen Attribute fĂŒr einen Artikel auch gefĂŒllt sind. Im Projekt wird dann geschaut, fĂŒr welche Attribute ein Textbaustein lohnenswert ist. In der Regel eignen sich die gut gefĂŒllten Attribute. D.h. ich schaue eher darauf, wo Artikel sich Ă€hneln. Dann betexte ich diese zahlreich befĂŒllten/vorhandenen Eigenschaften. Das macht in der Menge oftmals mehr Sinn, als auf die wirklichen USPs EINES einzelnen Artikels einzugehen.

Nichtsdestotrotz ist es natĂŒrlich auch möglich, individuelle Eigenschaften bestimmter Artikel im Text hervorzuheben.

Hat ein Shop z.B. Hunderte Schuhe, aber nur 3 Paar sind mit echtem gewachsenem Lammfell gefĂŒttert, kann es Sinn machen, gerade diesen USP herauszustellen. Ob sich ein automatisiertes Template dafĂŒr lohnt oder diese sehr individuellen USPs dann in einem spĂ€teren Veredelungsprozess von Ihren internen oder externen Copywritern herausgearbeitet werden, ist eine individuelle Entscheidung des Unternehmens.

Hinweis: Absolute Grundvoraussetzung ist ĂŒbrigens, dass der Produkttyp/die Gattung zu 100% befĂŒllt ist und es eine eineindeutige UID fĂŒr jedes Produkt, das Text braucht, gibt.

Wie starte ich nun am besten?

Wenn diese Voraussetzungen zumindest schon mal fĂŒr eine Kategorie erfĂŒllt sind, steht Ihnen in der Regel nichts mehr im Wege. Nun gilt es die Daten detailliert zu analysieren und sinnvolle Regeln fĂŒr Textbausteine zu erstellen. Nach der Regelerstellung und dem Anlegen des Textmodells werden kreative FĂ€higkeiten gebraucht, denn nun geht es ans Schreiben.

Hierbei werden alle SĂ€tze in mehreren Varianten verfasst, um zu verhindern, dass sich alle Texte gleich lesen. Je mehr Varianten Sie anlegen, desto einzigartiger werden Ihre Texte. Das verhindert Duplicate Content und hilft Ihnen somit Ihre Sichtbarkeit bei Suchmaschinen zu steigern.

Regeln, Varianten und Synonyme

Attributs- und wertbasierte Regeln, Varianten und Synonyme sorgen fĂŒr die nötige Abwechslung innerhalb der Texte. Synonyme sind dabei nicht nur Wörter, die andere Wörter ersetzen können, sondern werden auf gesamte Phrasen ausgeweitet. So lassen sich besonders starke Wendungen und AusdrĂŒcke abmildern, die dem Leser - wenn hĂ€ufig wiederholt - ins Auge springen könnten.

Am Ende folgt die QualitĂ€tssicherung. Hier werden alle Regeln, Varianten und Synonyme gegengecheckt. Und auch der Output, sprich die möglichen Texte, wird stichprobenartig geprĂŒft. Änderungen können jetzt - aber auch zu jedem spĂ€teren Zeitpunkt - eingepflegt werden.

Und dann? Dann laden Sie einfach Ihre Datei mit den Daten hoch und ziehen sich Ihre Texte!
Einmal, zweimal oder immer wieder!

Vorteile von Content Automation fĂŒr Ihr Unternehmen

  • Jederzeit konforme, auf Knopfdruck abrufbare Texte, die unternehmensspezifische Anforderungen erfĂŒllen
  • Automatisierte Produktbeschreibungen für schnellere Time-to-Market bei der EinfĂŒhrung neuer Artikel
  • Entlastung interner und externer Texter durch automatisierte Bereitstellung von Essential Content – das bedeutet mehr Zeit fĂŒr KreativitĂ€t
  • SEO-konforme Texte für Ihren Onlineshop
  • Vermeidung von Duplicate Content
  • Schnellere Internationalisierung

Textautomatisierung lohnt sich – ob bei einzelnen Texten mittels GPT-3 oder bei einer großen Menge an Text über eine Data-to-Text-Engine. Auch eine Hybrid-Lösung ist denkbar, denn es macht Sinn beide Technologien miteinander zu kombinieren.

Vorbei sind die Zeiten, in denen jeder einzelne Text aufwĂ€ndig manuell geschrieben werden muss. Mit strukturierten Daten lĂ€sst sich die Erstellung von Content effektiv automatisieren. So sparen Sie Zeit und Ressourcen.