Sottotitoli negli annunci video: non sono più facoltativi
La maggior parte dei video sui social viene guardata senza audio. Dati sugli annunci video con sottotitoli, gli stili che tengono l'attenzione e come generarli con precisione su larga scala.
Apri il telefono, scorri un feed e conta quanti annunci riesci a sentire prima di toccarne uno. Per la maggior parte delle persone la risposta è zero. Il video ha iniziato a riprodursi nel momento in cui ha riempito lo schermo, il suono era disattivato e il pollice ha continuato a scorrere.
Quella riproduzione automatica silenziosa è lo stato predefinito di ogni feed principale, e lo è da anni. Un annuncio senza sottotitoli è un annuncio per cui hai deciso che metà del tuo pubblico può leggerlo senza audio — solo che non può, perché non c'è nulla sullo schermo da leggere. Il voiceover per cui hai pagato sta parlando a una stanza vuota.
La riproduzione automatica silenziosa è il problema centrale
Facebook, Instagram, TikTok e LinkedIn riproducono tutti i video in silenzio nel feed. Il suono si attiva solo se lo spettatore tocca lo schermo, e la maggior parte non lo fa. Il dato comunemente citato è che la grande maggioranza dei video mobile nel feed viene guardato senza suono — i numeri esatti variano per piattaforma e studio, ma nessun media buyer serio pianifica più un audio attivato per impostazione predefinita.
Questo cambia cosa sia effettivamente un "annuncio video". Non è uno spot da 30 secondi che si trova casualmente su un telefono. È un oggetto silenzioso, a scorrimento veloce, progettato per fermare il pollice, che deve trasmettere il suo messaggio visivamente prima di tutto — e ricompensare il suono in secondo luogo.
La conseguenza pratica: ogni riga importante del tuo script deve esistere anche come testo sullo schermo. Non come opzione. Come canale di consegna primario, con l'audio come upgrade per la minoranza che tocca.
C'è una seconda ragione per cui i sottotitoli meritano il loro posto: l'accessibilità. Circa una persona su cinque ha qualche grado di difficoltà uditiva, e molte altre guardano in luoghi dove il suono è socialmente impossibile — in metropolitana, in ufficio, a letto con un partner che dorme. I sottotitoli non sono una casella di conformità normativa; è come una grande parte del tuo pubblico riceve l'annuncio.
Cosa fanno concretamente i sottotitoli alla retention
La retention è la metrica che decide se il tuo annuncio ottiene una distribuzione economica. Le piattaforme premiano i video che mantengono l'attenzione con CPM effettivi più bassi e una distribuzione più ampia; i video su cui si scorre via nei primi due secondi vengono penalizzati. I sottotitoli spostano quella curva in tre modi concreti.
- Rendono il primo secondo leggibile. Uno spettatore che scorre velocemente decide in ben meno di un secondo se fermarsi. Il testo sullo schermo gli dà qualcosa da elaborare istantaneamente — un'affermazione, una domanda, un numero — prima ancora che abbia capito cosa sia il visual. Un video silenzioso senza testo gli chiede di aspettare e scoprire, e non lo farà.
- Mantengono lo spettatore silenzioso all'interno della storia. Una volta che qualcuno si ferma, i sottotitoli portano avanti la narrazione battuta dopo battuta. Senza di essi, uno spettatore senza audio arriva al momento in cui il voiceover consegna il punto chiave, non sente nulla e se ne va. Il grafico della retention mostra questo come un precipizio esattamente nel punto in cui arriva il hook parlato.
- Aggiungono un secondo strato visivo a un'inquadratura lenta. Anche quando nulla si muove sullo schermo, i sottotitoli animati parola per parola creano movimento che si legge come "qui sta succedendo qualcosa". Quel micro-movimento ti compra un altro battito di attenzione durante le inquadrature in camera fissa o di presentazione del prodotto.
Puoi vederlo direttamente nelle tue analisi. Lancia lo stesso annuncio con e senza sottotitoli e osserva il tasso di mantenimento a tre secondi e il tempo medio di visualizzazione. La versione sottotitolata quasi sempre regge più a lungo, perché hai smesso di affidarti a un canale sonoro che è spento.
Lo stile dei sottotitoli che trattiene l'attenzione (e quello che danneggia)
Non tutti i sottotitoli sono uguali. Una parete di piccolo testo grigio in fondo al fotogramma è tecnicamente sottotitolata e praticamente invisibile. Le scelte di stile qui sotto sono quelle che determinano se i sottotitoli fanno davvero il loro lavoro.
La lista di controllo dello stile
- Da una a tre parole sullo schermo alla volta, non frasi intere. Lo stile "karaoke" o parola per parola — dove le parole appaiono sincronizzate con il voiceover e la parola attiva viene evidenziata — si legge più velocemente di un blocco statico. Costringe anche l'occhio a seguire un ritmo, che è di per sé un dispositivo di retention.
- Abbastanza grande da leggere a distanza di un braccio su un telefono. Se devi strizzare gli occhi sul tuo dispositivo, è troppo piccolo. Il testo dei sottotitoli dovrebbe occupare una frazione significativa della larghezza del fotogramma, non nascondersi in una striscia sottile.
- Alto contrasto, sempre. Testo bianco in grassetto con un contorno scuro o una piastra di sfondo semi-opaca sopravvive a qualsiasi filmato. Un testo sottile senza contorno scompare nel momento in cui lo sfondo diventa chiaro.
- Evita le trappole della zona sicura. In 9:16, il ~10% superiore e il ~20% inferiore sono coperti dall'interfaccia propria della piattaforma — nome utente, didascalia, pulsanti, barra CTA. Posiziona i sottotitoli nella banda centrale in modo che nulla di importante sia nascosto dietro un pulsante Mi piace.
- Un solo carattere tipografico, posizionamento coerente. I sottotitoli che saltano per il fotogramma o cambiano font sembrano amatoriali e distolgono l'attenzione dal messaggio. Scegli una posizione e mantienila.
- Evidenzia la parola chiave, non ogni parola. Se stai evidenziando parole, evidenzia quelle che portano significato — il numero, il beneficio, il verbo. Evidenziare tutto non evidenzia nulla.
Cosa danneggia: testo grigio minuscolo, paragrafi interi che cambiano troppo lentamente per essere seguiti, sottotitoli che si sovrappongono alla bocca del parlante, e stili animati decorativi così elaborati da competere con le parole per l'attenzione. L'obiettivo è la leggibilità a colpo d'occhio, non una vetrina tipografica.
Il problema della precisione su larga scala
I sottotitoli aiutano solo se sono corretti. Un nome di brand scritto male o una riga mal sincronizzata fa più danno di nessun sottotitolo, perché segnala che l'annuncio è stato fatto con negligenza — e gli spettatori estendono quel giudizio al prodotto.
Va bene quando pubblichi un annuncio. Si rompe quando pubblichi il volume che il paid social richiede davvero. Trovare un creativo vincente significa testare molte varianti, e ogni variante ha bisogno di sottotitoli precisi, ben sincronizzati e correttamente stilizzati. Farlo a mano è lento e soggetto a errori esattamente dove gli errori sono più costosi — nomi propri, nomi di prodotti, numeri e timing.
Tre approcci, con compromessi onesti:
- Sottotitolazione manuale in un editor. Massimo controllo, minima resa. Accettabile per un annuncio di punta, impraticabile per venti varianti di test a settimana. La precisione dipende interamente dall'attenzione dell'editor, che si affievolisce dopo il quinto video.
- Strumenti di trascrizione automatica. Veloci, ma la trascrizione indovina le parole che ha sentito a metà. Nomi di brand, gergo e numeri sono esattamente quello che sbaglia, e sono esattamente le parole che devono essere giuste. Devi comunque rileggere ognuna.
- Sottotitoli generati dallo script, non dall'audio. Se il sistema conosce già lo script — perché lo ha scritto e ha generato il voiceover da esso — i sottotitoli sono derivati da testo noto, non ricostruiti a ritroso da una forma d'onda. Ortografia e formulazione sono corrette per costruzione. Il timing è il problema di allineamento, e questo è molto più gestibile che indovinare le parole.
Quest'ultimo approccio è quello che scala, perché elimina la fase di revisione che blocca gli altri due. Quando le parole sono note in anticipo, la precisione smette di essere una scommessa per ogni video.
Una lista di controllo pre-lancio per i sottotitoli
Prima che un annuncio sottotitolato vada live, eseguilo attraverso questa lista. Richiede meno di un minuto per video e cattura gli errori che silenziosamente sprecano il budget.
- Guardalo senza audio, per primo. Se l'annuncio non ha senso senza il suono, i sottotitoli stanno fallendo. Questo è il controllo singolo più importante e quello che la maggior parte delle persone salta.
- Leggi il testo del primo fotogramma in isolamento. Il sottotitolo di apertura da solo farebbe fermare uno sconosciuto che scorre? Se recita "Benvenuti nel nostro brand", riscrivilo.
- Controlla ogni nome proprio e numero. Nome del brand, nome del prodotto, prezzi, percentuali. Questi sono gli errori con il costo più alto.
- Conferma che i sottotitoli si trovino all'interno della zona sicura per ogni formato che stai esportando. Quello che è centrato in 1:1 può collidere con l'interfaccia in 9:16.
- Verifica il timing rispetto al voiceover. I sottotitoli che sono in ritardo o in anticipo rispetto all'audio rompono il ritmo per gli spettatori che hanno il suono attivato.
- Testa la leggibilità sulle riprese più luminose e più scure del montaggio. Se il testo regge in entrambe, il contrasto è corretto.
FAQ
Ho davvero bisogno dei sottotitoli se il mio annuncio non ha voiceover?
Sì, probabilmente ancora di più. Un annuncio in b-roll silenzioso senza sottotitoli chiede allo spettatore di dedurre il tuo messaggio solo dalle immagini, il che non funziona quasi mai in un feed a scorrimento veloce. I sottotitoli sono il modo in cui dichiari l'offerta, il hook e la call to action quando non c'è una traccia parlata a portarli. Diventano lo script, sullo schermo.
I sottotitoli devono corrispondere parola per parola allo script parlato?
Per il paid social, quasi verbatim è di solito la scelta giusta, con una leggera riduzione. L'eccezione è il hook: la prima riga sullo schermo può essere più incisiva e corta di quella parlata, perché il testo si scansiona più velocemente del parlato. Tieni il corpo vicino al verbatim affinché gli spettatori con l'audio non leggano qualcosa di diverso da quello che sentono.
Quale stile di sottotitoli converte meglio su TikTok rispetto a Meta?
I principi sono gli stessi su tutte le piattaforme — grandi, alto contrasto, centrali, parola per parola — ma TikTok e Reels premiano un ritmo più veloce e nativo con raggruppamenti di parole più serrati, mentre Meta e LinkedIn tollerano un ritmo leggermente più calmo. Il default sicuro è lo stile energetico parola per parola; è quello che performa peggio in misura minore in tutti i formati quando riutilizzi un unico montaggio.
Sottotitolare ogni variante a mano è il punto in cui la disciplina dei sottotitoli muore silenziosamente — corretta in teoria, abbandonata al terzo test. Aitachyon colma quel divario: incolla un URL e genera lo script, il voiceover e i sottotitoli incorporati derivati da quello script noto, poi esporta il montaggio in 9:16, 16:9 o 1:1 per TikTok, Reels, Shorts, Meta e LinkedIn in circa due minuti. I sottotitoli sono corretti perché le parole non sono mai state indovinate. I piani partono da $29/mese con una garanzia di rimborso di 14 giorni, quindi lanciare un giro completo di varianti sottotitolate costa circa quanto costerebbe un singolo annuncio di punta sottotitolato a mano. Inizia gratis e guarda il primo con il suono spento.
Articoli correlati
Il video-annuncio del fondatore: come farlo funzionare senza risultare imbarazzante
Perché un fondatore che parla in camera batte il video curato su audience fredde, e le tre mosse narrative che rendono credibile un annuncio storia del fondatore.
GuideAnnunci Video Esplicativi: Brevi per Convertire, Chiari per Restare
Come comprimere una spiegazione completa del prodotto in un annuncio video esplicativo di 45 secondi senza perdere lo spettatore né il messaggio. Una struttura ripetibile e script.
GuideIl formato della pubblicità video di prodotto: una scomposizione inquadratura per inquadratura
Una dissezione fotogramma per fotogramma di un annuncio video prodotto ad alte prestazioni — ordine delle riprese, ritmo, timing dei sottotitoli e cosa fa cliccare il end card.