Untertitel in Video-Anzeigen: kein optionales Extra mehr
Die meisten Social-Media-Videos werden ohne Ton abgespielt. Daten zu untertitelten Videoanzeigen, wirkungsvolle Stile für bessere Retention und präzise Untertitel in großem Maßstab.
Öffne dein Handy, scrolle durch einen Feed und zähle, wie viele Anzeigen du hörst, bevor du eine antippst. Für die meisten Menschen lautet die Antwort null. Das Video startete automatisch, sobald es den Bildschirm ausfüllte, der Ton war aus, und der Daumen scrollte weiter.
Diese stumme Autoplay-Funktion ist der Standardzustand jedes großen Feeds — seit Jahren. Eine Anzeige ohne Untertitel ist eine Anzeige, bei der du entschieden hast, dass die Hälfte deiner Zielgruppe sie ohne Ton lesen kann — nur kann sie das nicht, weil nichts auf dem Bildschirm zu lesen ist. Der Voiceover, für den du bezahlt hast, spricht in einen leeren Raum.
Stilles Autoplay ist das eigentliche Problem
Facebook, Instagram, TikTok und LinkedIn spielen Videos im Feed alle ohne Ton ab. Der Ton schaltet sich nur ein, wenn der Zuschauer tippt — und die meisten tun es nicht. Die oft genannte Zahl ist, dass die große Mehrheit der mobilen Feed-Videos ohne Ton angesehen wird. Die genauen Zahlen variieren je nach Plattform und Studie, aber kein ernsthafter Media-Einkäufer plant mehr mit eingeschaltetem Ton als Standard.
Das verändert, was eine "Videoanzeige" eigentlich ist. Es ist kein 30-Sekunden-Spot, der zufällig auf einem Handy lebt. Es ist ein stilles, schnell scrollendes Objekt, das den Daumen stoppen soll und seine Botschaft zuerst visuell vermitteln muss — und den Ton als Belohnung für danach reserviert.
Die praktische Konsequenz: Jede wichtige Zeile deines Scripts muss auch als Text auf dem Bildschirm existieren. Nicht als Nice-to-have. Als primärer Übertragungskanal, mit Audio als Upgrade für die Minderheit, die tippt.
Es gibt einen zweiten Grund, warum Untertitel ihren Platz verdienen: Barrierefreiheit. Etwa jeder fünfte Mensch hat eine gewisse Hörbeeinträchtigung, und viele weitere schauen in Umgebungen, in denen Ton sozial unmöglich ist — im Pendlerverkehr, im Büro, im Bett neben einem schlafenden Partner. Untertitel sind kein Compliance-Häkchen; sie sind die Art und Weise, wie ein großer Teil deiner Zielgruppe die Anzeige überhaupt wahrnimmt.
Was Untertitel konkret mit der Retention machen
Retention ist die Kennzahl, die darüber entscheidet, ob deine Anzeige günstige Distribution bekommt. Plattformen belohnen Videos, die Aufmerksamkeit halten, mit niedrigeren effektiven CPMs und breiterer Auslieferung; Videos, an denen man in den ersten zwei Sekunden vorbeiscrollt, werden gedrosselt. Untertitel verschieben diese Kurve auf drei konkrete Arten.
- Sie machen die erste Sekunde lesbar. Ein schnell scrollender Zuschauer entscheidet in deutlich unter einer Sekunde, ob er stoppt. Text auf dem Bildschirm gibt ihm etwas, das er sofort verarbeiten kann — eine Aussage, eine Frage, eine Zahl — bevor er überhaupt erfasst hat, was der visuelle Inhalt ist. Ein stilles Video ohne Text verlangt, dass er wartet und herausfindet, und das wird er nicht tun.
- Sie halten den stummen Zuschauer in der Geschichte. Wenn jemand einmal stoppt, tragen Untertitel die Erzählung Schlag für Schlag. Ohne sie erreicht ein stummer Zuschauer den Moment, in dem der Voiceover den Kernpunkt liefert, hört nichts und verlässt die Seite. Der Retentionsgraph zeigt dies als steilen Abfall genau dort, wo der gesprochene Hook landet.
- Sie fügen einer langsamen Einstellung eine zweite visuelle Ebene hinzu. Selbst wenn sich nichts auf dem Bildschirm bewegt, erzeugen animierte Wort-für-Wort-Untertitel Bewegung, die sich liest wie "hier passiert gerade etwas". Diese Mikrobewegung kauft dir einen weiteren Moment Aufmerksamkeit bei Talking-Head- oder Produktpräsentations-Einstellungen.
Du kannst das direkt in deinen eigenen Analysen sehen. Schalte dieselbe Anzeige mit und ohne Untertitel und beobachte die Drei-Sekunden-Halterate und die durchschnittliche Wiedergabezeit. Die untertitelte Version hält fast immer länger, weil du aufgehört hast, dich auf einen Tonkanal zu verlassen, der ausgeschaltet ist.
Untertitel-Stile, die Aufmerksamkeit halten (und solche, die schaden)
Nicht alle Untertitel sind gleich. Eine Wand aus kleinem grauen Text am unteren Bildrand ist technisch gesehen untertitelt und praktisch unsichtbar. Die folgenden Stilentscheidungen sind die, die darüber bestimmen, ob Untertitel ihren Job tatsächlich erledigen.
Die Stil-Checkliste
- Ein bis drei Wörter gleichzeitig auf dem Bildschirm, keine ganzen Sätze. Der "Karaoke"- oder Wort-für-Wort-Stil — wo Wörter synchron mit dem Voiceover erscheinen und das aktive Wort hervorgehoben wird — liest sich schneller als ein statischer Block. Er zwingt das Auge auch dazu, einem Rhythmus zu folgen, was selbst ein Aufmerksamkeitsinstrument ist.
- Groß genug, um auf Armeslänge auf einem Handy gelesen zu werden. Wenn du auf deinem eigenen Gerät die Augen zusammenkneifen musst, ist es zu klein. Untertiteltext sollte einen bedeutenden Anteil der Bildbreite einnehmen, nicht in einem schmalen Streifen verschwinden.
- Hoher Kontrast, immer. Fetter weißer Text mit einem dunklen Rand oder einer halbtransparenten Hintergrundplatte übersteht jedes Filmmaterial. Dünner Text ohne Kontur verschwindet, sobald der Hintergrund hell wird.
- Vermeide die Safe-Zone-Fallen. Bei 9:16 werden die oberen ~10 % und die unteren ~20 % von der eigenen Benutzeroberfläche der Plattform abgedeckt — Benutzername, Bildunterschrift, Schaltflächen, CTA-Leiste. Platziere deine Untertitel im mittleren Band, damit nichts Wichtiges hinter einem Like-Button versteckt wird.
- Eine Schriftart, konsistente Platzierung. Untertitel, die durch den Rahmen springen oder die Schriftart wechseln, wirken unprofessionell und lenken den Fokus vom Inhalt ab. Wähle eine Position und halte daran fest.
- Das Schlüsselwort hervorheben, nicht jedes Wort. Wenn du Wörter hervorhebst, hebe die hervor, die Bedeutung tragen — die Zahl, den Nutzen, das Verb. Alles hervorzuheben hebt nichts hervor.
Was schadet: winziger grauer Text, vollständige Absätze, die sich zu langsam ändern, um ihnen zu folgen, Untertitel, die den Mund des Sprechers überlagern, und dekorative animierte Stile, die so aufwändig sind, dass sie mit den Wörtern um Aufmerksamkeit konkurrieren. Das Ziel ist Lesbarkeit auf den ersten Blick, keine Typografie-Schau.
Das Genauigkeitsproblem bei großem Maßstab
Untertitel helfen nur, wenn sie korrekt sind. Ein falsch geschriebener Markenname oder eine schlecht getimte Zeile richtet mehr Schaden an als gar keine Untertitel, weil es signalisiert, dass die Anzeige nachlässig gemacht wurde — und die Zuschauer übertragen dieses Urteil auf das Produkt.
Das ist kein Problem, wenn du eine einzige Anzeige schaltest. Es bricht zusammen, wenn du das Volumen schaltest, das Paid Social tatsächlich erfordert. Einen gewinnenden Creative zu finden bedeutet, viele Varianten zu testen, und jede Variante braucht präzise, gut getimte, korrekt gestaltete Untertitel. Das von Hand zu machen ist langsam und fehleranfällig genau dort, wo Fehler am teuersten sind — Eigennamen, Produktnamen, Zahlen und Timing.
Drei Ansätze mit ehrlichen Kompromissen:
- Manuelles Untertiteln im Editor. Maximale Kontrolle, minimaler Durchsatz. Gut für eine Hauptanzeige, nicht praktikabel für zwanzig Testvarianten pro Woche. Die Genauigkeit hängt vollständig von der Aufmerksamkeit des Editors ab, die nach dem fünften Video nachlässt.
- Automatische Transkriptionstools. Schnell, aber die Transkription rät bei Wörtern, die sie nur halb gehört hat. Markennamen, Fachjargon und Zahlen sind genau das, was sie falsch macht — und genau die Wörter, die richtig sein müssen. Du musst trotzdem jedes einzelne korrekturlesen.
- Untertitel aus dem Script generiert, nicht aus dem Audio. Wenn das System das Script bereits kennt — weil es es geschrieben und den Voiceover daraus generiert hat — werden die Untertitel aus bekanntem Text abgeleitet, nicht von einer Wellenform rückwärts entwickelt. Schreibweise und Formulierung sind konstruktionsbedingt korrekt. Das Timing ist das Ausrichtungsproblem, und das ist weit handhabbarer als das Erraten der Wörter.
Dieser letzte Ansatz ist der, der skaliert, weil er den Korrekturleseschritt eliminiert, der die anderen beiden abbremst. Wenn die Wörter von Anfang an bekannt sind, hört die Genauigkeit auf, ein videoindividuelles Glücksspiel zu sein.
Eine Vor-Launch-Checkliste für Untertitel
Bevor eine untertitelte Anzeige live geht, führe sie durch diese Prüfung. Es dauert unter einer Minute pro Video und fängt die Fehler ab, die still Budget verschwenden.
- Sieh es dir zuerst stumm an. Wenn die Anzeige ohne Ton keinen Sinn ergibt, versagen die Untertitel. Das ist die wichtigste Prüfung und die, die die meisten überspringen.
- Lies den Text des ersten Frames isoliert. Würde der Eröffnungs-Untertitel allein einen vorbei scrollenden Fremden stoppen? Wenn er "Willkommen bei unserer Marke" lautet, schreibe ihn um.
- Prüfe jeden Eigennamen und jede Zahl. Markenname, Produktname, Preise, Prozentzahlen. Das sind die Fehler mit den höchsten Kosten.
- Bestätige, dass Untertitel innerhalb der Safe Zone liegen, für jedes Seitenverhältnis, das du exportierst. Was bei 1:1 zentriert ist, kann bei 9:16 mit der Benutzeroberfläche kollidieren.
- Überprüfe das Timing gegen den Voiceover. Untertitel, die hinter dem Audio zurückbleiben oder ihm vorauseilen, brechen den Rhythmus für die Zuschauer, die den Ton tatsächlich eingeschaltet haben.
- Teste die Lesbarkeit bei den hellsten und dunkelsten Aufnahmen im Schnitt. Wenn der Text beide übersteht, ist der Kontrast richtig.
FAQ
Brauche ich wirklich Untertitel, wenn meine Anzeige keinen Voiceover hat?
Ja, wohl sogar noch mehr. Eine stumme B-Roll-Anzeige ohne Untertitel verlangt vom Zuschauer, deine Botschaft allein aus Bildern abzuleiten, was in einem schnell scrollenden Feed fast nie funktioniert. Untertitel sind die Art, wie du das Angebot, den Hook und den Call-to-Action kommunizierst, wenn kein gesprochener Track sie trägt. Sie werden zum Script — auf dem Bildschirm.
Sollten Untertitel wortgenau mit dem gesprochenen Script übereinstimmen?
Für Paid Social ist nahezu verbatim meistens richtig, mit leichtem Kürzen. Die Ausnahme ist der Hook: die erste Zeile auf dem Bildschirm kann knackiger und kürzer sein als die gesprochene, weil Text schneller gescannt wird als Sprache. Halte den Hauptteil nahe am Verbatim, damit Zuschauer mit Ton nicht etwas anderes lesen, als sie hören.
Welcher Untertitelstil konvertiert auf TikTok im Vergleich zu Meta am besten?
Die Prinzipien sind plattformübergreifend gleich — groß, hoher Kontrast, zentral, Wort für Wort — aber TikTok und Reels belohnen einen schnelleren, nativeren Rhythmus mit engerer Wortzusammenstellung, während Meta und LinkedIn ein leicht ruhigeres Tempo tolerieren. Der sichere Standard ist der energetische Wort-für-Wort-Stil; er schneidet in allen Placements am wenigsten schlecht ab, wenn du einen einzigen Schnitt wiederverwendest.
Jede Variante von Hand zu untertiteln ist der Punkt, an dem die Untertitel-Disziplin leise stirbt — in der Theorie korrekt, beim dritten Test aufgegeben. Aitachyon schließt diese Lücke: Füge eine URL ein, und es generiert das Script, den Voiceover und eingebrannte Untertitel aus diesem bekannten Script, dann exportiert es den Schnitt in 9:16, 16:9 oder 1:1 für TikTok, Reels, Shorts, Meta und LinkedIn in etwa zwei Minuten. Die Untertitel sind korrekt, weil die Wörter nie geraten wurden. Pläne beginnen bei $29/Monat mit einer 14-tägigen Geld-zurück-Garantie, sodass eine vollständig untertitelte Runde Varianten ungefähr so viel kostet wie eine einzige von Hand untertitelte Hauptanzeige. Kostenlos starten und das erste Video mit ausgeschaltetem Ton ansehen.
Ähnliche Artikel
Die Gründer-Story-Werbung: Wie sie funktioniert, ohne peinlich zu wirken
Warum ein Gründer vor der Kamera bei kalten Zielgruppen besser abschneidet als poliertes Video – und die drei narrativen Züge, die eine Gründer-Story glaubwürdig machen.
RatgeberErklärende Videoanzeigen: Kurz zum Konvertieren, Klar zum Behalten
Wie man eine vollständige Produkterklärung in eine 45-sekündige Erklärvideoannonce komprimiert, ohne Zuschauer oder Botschaft zu verlieren. Eine wiederholbare Struktur und Skripte.
RatgeberDas Format der Produktvideowerbung: eine Einstellung-für-Einstellung-Analyse
Eine Bild-für-Bild-Sezierung eines leistungsstarken Produktvideoanzeigen — Einstellungsfolge, Pacing, Untertitel-Timing und warum auf das End Card geklickt wird oder nicht.