Textautomatisierung und Natural Language Generation (NLG) – wer Produktbeschreibungen oder andere Texte für sein eCommerce braucht, hat von diesen Begriffen sicher schon mal gehört. Schwebt da die Konnotation einer Content-Erzeugung in unfassbarer Geschwindigkeit mit, kann die Vorstellung von Textautomatisierung sehr verlockend sein.
Denn im allgemeinen Content-Prozess entpuppen sich Textprozesse sehr häufig als eine empfindliche Achillessehne. Produkte und Services müssen über unterschiedlichste Touchpoints publiziert werden und benötigen daher für alle Touchpoints uniquen Content. Hier kommen die oben genannten Konzepte ins Spiel.
Aber was steckt eigentlich dahinter?
Aktuell in aller Munde: GPT-3 oder ChatGPT. Jeder hat die KI schon ausprobiert und beeindruckt geschaut, wenn da plötzlich auf Grundlage eines einfachen Befehls ein stilistisch einwandfreier Text zu einem Thema, ein Gedicht, eine Grafik oder Code ausgegeben wird.
Da scheint der Traum zum Greifen nahe: ich werfe einfach ein paar Schlagwörter in die Maschine und erhalte einwandfreie Produkttexte für meinen Onlineshop. Schöne neue Welt.
Wenn ich nicht ganz so viele Produkte habe, die ich mit Text versorgen muss, dann kann ich das durchaus so machen – immer unter der Voraussetzung, dass die Texte eine inhaltliche Endkontrolle erhalten. Schließlich warnt nicht nur Forrester vor „coherent nonsense“, also kohärenten, aber sinnlosen Inhalten. Da kann sich die Product Experience sehr schnell in die falsche Richtung entwicklen.
Denn die Texte mögen sich zwar stilistisch korrekt und natürlichsprachlich lesen, der Inhalt muss jedoch nicht immer stimmen.
So liest man in zwei von uns getesteten Szenarien davon, dass Papier ein nachwachsender Rohstoff sei. Oder eine Windjacke, für die gar keine Farbe angegeben war, ist plötzlich in verschiedenen Farben erhältlich.
Das Ergebnis ist also durchaus fragwürdig. Hinzukommen bisweilen rassistische oder diskriminierende Inhalte, die besser nicht veröffentlicht gehören.
Bei der Data-to-Text-Technologie werden große Datenmengen (in strukturierter Form) mithilfe von Regelwerken in Text umgewandelt. Diese Regelwerke werden allerdings nicht von einer Maschine gebildet, sondern von einem Menschen, der sich mit der Technologie und der Materie, um die es geht, auskennt.
Dabei werden mit einem initialen Aufwand Daten (beispielsweise Produktdaten) interpretiert und ein Textmodell erstellt. Angepasst an Kundenwünsche, SEO und individuelle sowie kanalspezifische Anforderungen wird das Textmodell mit Formulierungen angereichert. So entsteht Varianz, die dafür sorgt, dass die Inhalte hinterher unique sind und keinen Duplicate Content (DC) verursachen.
Der Aufwand von Data-to-Text ist – anders als bei GPT-3 – vor der Textproduktion angesiedelt. D.h. die Texte müssen hinterher nicht mehr kontrolliert werden, weil Fehler oder Ungereimtheiten schon im Vorfeld ausgeschlossen werden. Die finalen Texte sind unendlich vielfältig, aber die Qualität ist jederzeit gesichert.
Voraussetzung für Content mit Data-to-Text sind strukturierte Daten. Was das bedeutet, dazu später mehr.
Zwei Technologien, zwei lernende Systeme.
GPT-3 ist eine KI, mit der sich aus einzelnen beschreibenden Schlagwörtern, wie Attributen, Content generieren lässt. Dabei stützt GPT-3 sich auf enorme Mengen an Webinhalten, die als Trainingsdaten dienen.
Die darin enthaltenen Formulierungen werden nach einer Wahrscheinlichkeitsberechnung zu immer wieder neuen Texten zusammengewürfelt. Es entstehen grammatikalisch korrekte Sätze und Texte, die wie schon erwähnt inhaltlich immer auf ihre Sinnhaftigkeit überprüft werden müssen.
Diese Technologie lohnt sich also nur für einzelne Texte, nicht aber für eine große Menge von beispielsweise Produkttexten für einen Onlineshop.
Der Aufwand bei GPT-3 ist nachgelagert: hier ist es wichtig, jeden einzelnen Text nach der Ausgabe zu kontrollieren, weil der Output auch sinnlos oder sinnverzerrend sein kann (siehe oben).
Perfekt geeignet ist GPT-3 oder auch die offen zugängliche ChatGPT für die Erstellung von Blogbeiträgen, zur Unterstützung beim kreativen Schreiben oder auch zur schnellen Erstellung einzelner Texte, die man vor dem Go-Live kontrollieren kann.
Data-to-Text hingegen lohnt sich, wenn strukturierte Daten vorliegen und beispielsweise ein größeres oder schnell drehendes Sortiment (wie z.B. im Modebereich) mit Produktbeschreibungen versorgt werden soll.
Denn wenn Sie Ihr Textmodell einmal aufgebaut und implementiert haben, können Sie bei einer neuen Kollektion einfach auf den Knopf drücken und bekommen einen ganzen Schwung neuer Texte für Ihren Shop! Das ist Skalierbarkeit, die sich lohnt!
Kann ich die KI-Unterstützung mit einem Data-to-Text- Modell verknüpfen und so von beiden Technologien profitieren?
Ja, das Berliner Unternehmen Retresco macht es mit seiner textengine.io vor. Denn hier lassen sich regelbasierte Textelemente mit durch GPT-3 erzeugten Textpassagen verknüpfen.
So kann ich sicherstellen, dass ich ein meiner eigenen Tonalität angepasstes, qualitätsgesichertes Textmodell erhalte, das zukunftsfähig, jederzeit skalierbar und passend für meinen Anwendungsbereich ist.
Aber nicht nur Produktbeschreibungen lassen sich mit der Technologie realisieren. Auch automatisierte Kategorietexte, Berichte, Blogbeiträge, Newsletter uvm. sind mit einer Data-to-Text-Engine keine Zukunftsmusik mehr.
Mit strukturierten Daten zum uniquen Text
Was Sie brauchen, um ein skalierbares, erfolgreiches Textautomatisierungsprojekt durchzuführen?
Daten, Daten, Daten.
Und zwar nicht irgendwelche Daten – strukturierte Daten. Sie sind die Grundlage für eine Content Automation, die skalierbar und zukunftsfähig ist.
Wer schon mit einem PIM-System (Product Information Management) arbeitet, kann sich glücklich schätzen. Hier ist in der Regel kaum Aufwand nötig, um die Informationen nutzbar zu machen.
Wer noch mit einem eigenen System arbeitet oder gar auf verschiedene Datenmanagementtools zugreift, benötigt ggf. noch ein wenig Unterstützung.
Der erste Schritt ist immer ein initialer Check der Daten auf ihre Tauglichkeit. Hier lohnt es sich, mit einem Experten zusammenzuarbeiten, denn es müssen einige Voraussetzungen erfüllt sein.
NLG-Software funktioniert mit strukturierten Formaten wie XLSX, CSV und JSON (je nach Anbieter).
Während AX Semantics CSV und JSON einliest, nutzt die textengine.io von Retresco das Excel-Format und lässt auch JSON-Dateien zu. Wer nur andere Formate wie XML zur Verfügung hat, kann über kleinere Umwege auch diese umwandeln und nutzbar machen.
Das Format betrifft aber nicht nur die Art der Datei, sondern auch die Struktur dieser.
Dabei wird eine Datei mit folgendem Aufbau benötigt:
Attributsname Wert 1 Wert 2 Wert 3
Wobei die Attributsnamen (Datenfelder) in einer (der ersten) Zeile stehen und in den Zeilen darunter dann die jeweiligen Werte der entsprechenden Artikel.
Die Daten und ihre jeweiligen Werte müssen konsistent, sprich einheitlich befüllt sein. Soll heißen, dass in einem Datenfeld nur die Werte stehen dürfen, die in dieses Datenfeld gehören. Immer gleich geschrieben und möglichst fehlerfrei. Es sollten auch keine anderen, unpassenden Werte in einem Attribut untergebracht werden, die dort nicht hineingehören.
Z.B. wäre ein Wert wie „Transparent“ nicht der „Farbe“ zuzuordnen, da es sich genau genommen nicht um eine Farbe handelt. Möchte man den Wert „Transparent“ aber unterbringen, wäre ein Attribut wie „Optik“ o.ä. möglich.
Auch Einträge wie „Rundhals“ und mal „Rundhals-Ausschnitt“ sind nicht konsistent. Es sollte bei der Datenpflege immer darauf geachtet werden, wie sich eine Ausprägung in einen Satz einbinden lässt.
Daher ist es auch so wichtig, dass in einem Attribut entweder Substantive oder Adjektive enthalten sind und diese nicht vermischt werden.
Daten sollten möglichst granular und detailliert sein. Dabei ist zwischen Pflegeaufwand und möglichem Nutzen/Output abzuwägen. Ein sinnvolles Mittelmaß ist zu erreichen.
Haben Sie nur wenige Datenpunkte gepflegt, werden auch die Möglichkeiten für den Text nur minimal sein. Wollen Sie aber eine detaillierte Beschreibung eines Produkts erreichen, brauchen Sie auch detaillierte Daten.
Aus dem vorangegangenen Tabellenbeispiel (S.5) kann beispielsweise ein kurzer Text entwickelt werden. Sollten mehr Informationen z.B. zur Optik enthalten sein, benötigt das Textauto-Team weitere Attribute und Ausprägungen als die oben genannten.
Dabei sollte man immer im Blick haben, was man erreichen will: brauche ich nur einen Basistext (Essential Content) oder möchte ich bereits kreativere und abwechslungsreichere Texte (Creative Content) mit der Automatisierung erhalten?
Attribute müssen befüllt sein!
Nicht von der Hand zu weisen ist, dass die Attribute auch befüllt sein müssen. Wer ein Fashionsortiment betexten möchte, aber nur spärliche Daten hat, wird mit der Textautomatisierung nicht weit kommen.
Daher: bei der Datenpflege schon darauf achten, dass alle wichtigen Attribute für einen Artikel auch gefüllt sind. Im Projekt wird dann geschaut, für welche Attribute ein Textbaustein lohnenswert ist. In der Regel eignen sich die gut gefüllten Attribute. D.h. ich schaue eher darauf, wo Artikel sich ähneln. Dann betexte ich diese zahlreich befüllten/vorhandenen Eigenschaften. Das macht in der Menge oftmals mehr Sinn, als auf die wirklichen USPs EINES einzelnen Artikels einzugehen.
Nichtsdestotrotz ist es natürlich auch möglich, individuelle Eigenschaften bestimmter Artikel im Text hervorzuheben.
Hat ein Shop z.B. Hunderte Schuhe, aber nur 3 Paar sind mit echtem gewachsenem Lammfell gefüttert, kann es Sinn machen, gerade diesen USP herauszustellen. Ob sich ein automatisiertes Template dafür lohnt oder diese sehr individuellen USPs dann in einem späteren Veredelungsprozess von Ihren internen oder externen Copywritern herausgearbeitet werden, ist eine individuelle Entscheidung des Unternehmens.
Hinweis: Absolute Grundvoraussetzung ist übrigens, dass der Produkttyp/die Gattung zu 100% befüllt ist und es eine eineindeutige UID für jedes Produkt, das Text braucht, gibt.
Wenn diese Voraussetzungen zumindest schon mal für eine Kategorie erfüllt sind, steht Ihnen in der Regel nichts mehr im Wege. Nun gilt es die Daten detailliert zu analysieren und sinnvolle Regeln für Textbausteine zu erstellen. Nach der Regelerstellung und dem Anlegen des Textmodells werden kreative Fähigkeiten gebraucht, denn nun geht es ans Schreiben.
Hierbei werden alle Sätze in mehreren Varianten verfasst, um zu verhindern, dass sich alle Texte gleich lesen. Je mehr Varianten Sie anlegen, desto einzigartiger werden Ihre Texte. Das verhindert Duplicate Content und hilft Ihnen somit Ihre Sichtbarkeit bei Suchmaschinen zu steigern.
Attributs- und wertbasierte Regeln, Varianten und Synonyme sorgen für die nötige Abwechslung innerhalb der Texte. Synonyme sind dabei nicht nur Wörter, die andere Wörter ersetzen können, sondern werden auf gesamte Phrasen ausgeweitet. So lassen sich besonders starke Wendungen und Ausdrücke abmildern, die dem Leser - wenn häufig wiederholt - ins Auge springen könnten.
Am Ende folgt die Qualitätssicherung. Hier werden alle Regeln, Varianten und Synonyme gegengecheckt. Und auch der Output, sprich die möglichen Texte, wird stichprobenartig geprüft. Änderungen können jetzt - aber auch zu jedem späteren Zeitpunkt - eingepflegt werden.
Und dann? Dann laden Sie einfach Ihre Datei mit den Daten hoch und ziehen sich Ihre Texte!
Einmal, zweimal oder immer wieder!