Magazinevideo > Apprendre > Enquêtes

Article en PDF
Pour lire ce PDF, abonnez-vous Premium !

Transcrire vos vidéos avec YouTube ou un logiciel pro ?

convertir de l'audio en texte écrit pour sous-titrer vos vidéos

 

25 janvier 2019 par Thierry P.

 

sous-titrage ouverture

La première question qui s'impose est celle du pourquoi. Pourquoi a-t-on besoin de transcrire par écrit de l'audio ? La seconde question est pour qui ? Et la dernière question est comment ?


La nécessité de transcrire de l'audio et le cas échéant, de sous-titrer des images vidéo n'est pas si évidente à comprendre quand l'exercice s'accomplit dans sa propre langue et non dans une langue étrangère. Finalement, pourquoi avoir besoin de transcrire de français en français ? Et pourquoi avoir besoin d'un outil pour cela puisqu'il suffit d'écouter et de saisir sur un clavier pour transcrire ?


En fait, l'utilité de la transcription (et éventuellement de la retranscription qui est le fait de modifier la transcription) s'impose quand on est journaliste, étudiant, chercheur, ou organisateur de débats, et qu'on transcrit par écrit des propos oraux. Les exemples les plus frappants sont ceux des interviews, des entretiens, et des débats, qu'ils soient audio ou réalisés en vidéo. Avoir un support écrit de propos oraux tenus par un orateur, permet de reproduire et publier les les phrases d'un interlocuteur dans un magazine papier ou sur le Web sans se tromper ni trahir sa pensée.


La transcription écrite peut aussi s'avérer nécessaire pour les quelques millions de sourds et malentendants, susceptibles d'être intéressés par une vidéo qu'ils n'entendent pas ou mal.


Dernière question : pourquoi avoir besoin d'un outil ? La raison est simple : pour peu que l'interlocuteur soit bavard, le transcripteur mettra au bas mot 3 à 4 fois plus de temps que celui de la durée de l'interview. C'est mécanique. Ceux qui ont transcrit une fois une interview complète pourront confirmer ! Transcrire une interview d'une heure nécessitera une transcription de 3 ou 4 heures, en corrigeant si besoin au fur et à mesure.


Vous allez me répondre que 3 à 4 heures de transcription, ce n'est pas la mort. Sauf que le travail est long, mais surtout fastidieux, et intellectuellement peu productif : c'est un travail de scribe ou de dactylo (métier qui a quasiment disparu). Et quand les entretiens se répètent, cela devient vite lassant. Mais surtout, quelle perte de temps et d'énergie ! D'où l'utilité d'un logiciel qui vous aide à cette tâche ingrate. C'est le "comment" de nos 3 questions et l'objet même de cet article. Etudions les possibilités...



> LIRE LA SUITE : Transcrire avec YouTube

Transcrire avec YouTube

YouTube

Première étape donc, trouver le système de transcription. Il en existe au moins de deux types. Basique et gratuit. Ou plus perfectionné et payant. Commençons par le basique et gratuit.


YouTube peut accomplir ce travail (sauf exception, voir plus loin) bien que cette fonction du célèbre site de partage ne soit pas la plus connue ni la plus usitée. Il faut dire que la fonctionnalité de "traduction / transcription" au sens large est souvent déconsidérée parce que d'une langue à une autre, les traductions proposées par YouTube sont simplistes, voire mauvaises, ou carrément incompréhensibles, et provoquent plus de railleries que d'adhésions.


Mais YouTube devient intéressant car il sait aussi transcrire et même sous-titrer automatiquement votre vidéo de français en français ! Et dans ce cas-là, c'est bien meilleur. Il suffit d'aller dans le Gestionnaire de vos vidéos, puis de choisir l'onglet Sous-titres puis de voir si une traduction automatique a été générée. En général, oui. Puis on peut sélectionner, lire, modifier et exporter ce sous-titrage dans l'un des formats courants du sous-titrage (.srt par exemple). On se constitue ainsi un fichier texte pour sous-titrer son film. En effet, l'intention de l'utilisateur n'est pas toujours de diffuser sur YouTube. Par exemple s'il souhaite créer un DVD, le vidéaste détournera la fonction de YouTube au profit du DVD. C'est gratuit et presque sans effort (hors modifications éventuelles). Donc Youtube, c'est parfait ?


Oui et non. Ce n'est pas si simple. Comme nous l'avons déjà approché par des essais lors d'une enquête portant sur le sous-titrage sur YouTube, les algorithmes du site de partage se font piéger et ne semblent pas beaucoup s'améliorer au fil du temps. Ainsi dans l'une de nos vidéos, la phrase originelle prononcée par une enfant : "comme il n'y a pas de robinet, l'eau, on la porte sur la tête" était devenue "comme il n'y a pas de regrets, le rapport la porte sur la tête" !


Les pièges qui font trébucher les algorithmes de YouTube sont en fait nombreux. Il peut s'agir :


-d'une mauvaise diction du commentateur ou d'un accent marqué,
-(plus rare) de liaisons entre deux mots que YouTube interprète de façon erronée,
-(bien sûr) d'un terme inconnu de YouTube, ou d'un nom propre,
-de mots polyphoniques : ainsi Youtube ne fera pas la différence entre « marché » et « marcher ».
-de bruit ambiants en cas d'une voix se mélangeant avec d’autres sons.


youtube
Pour apprécier vraiment ce que vaut YouTube, j'ai ainsi proposé à YouTube 3 extraits vidéo courts de difficulté croissante :
-Le 1er extrait est relativement facile sur le papier : Il s'agit d'un extrait de tutoriel vidéo qui a pour support ma voix enregistrée en "studio", sans bruit environnant. La reconnaissance a donc été relativement facile, malgré la présence de queqlues termes techniques. Le taux d'erreurs est inférieur à 2%, c'est logique. Seules erreurs anecdotiques : "l'Autofocus" devient "le to Focus" en 3 mots après transcription. De même, l'expression "limite AGC" pose problème à YouTube, ce qui est bien normal puisqu'il s'agit d'une abréviation peu courante, mais au moins, elle est identifiée et transcrite en mot à mot ("limite à gc").

-le 2e extrait corse la difficulté. L'action se situe dans une volière avec un enregistrement de voix en extérieur, parasité par un son assez présent d'écoulement d'eau. De plus la voix est un peu caverneuse, captée par une GoPro à l'intérieur d'un caisson ajouré. Enfin, dernière difficulté, le discours comporte plusieurs noms rares d'oiseaux à rallonge.


Bien sûr, YouTube s'est davantage emmêlé les pinceaux. "Nous sommes dans la volière tropicale du parc des Oiseaux" est devenu "Nous sommes dans la volière tropique a donc dû par les oiseaux", ce qui grammaticalement ne veut rien dire. De même, "Ce sont les oiseaux qu'on peut voir" est devenu "l'or c'est sûr les zozos qu'on peut voir".


Aucun nom exotique d'oiseau n'a été reconnu sauf un et c'est remarquable (l'Ibis blanc).


Disons que YouTube a transcrit correctement environ 70% du texte. Comme le texte était court, j'ai pu corriger directement et rapidement les 30% de fautes sur YouTube. Mais si mon texte avait duré 1 heure, 30% aurait représenté des dizaines et des dizaines de phrases à corriger.


-Enfin, le 3e extrait peut être qualifié de "torture-test" car j'ai choisi une voix en extérieur qui s'éloigne à certains moments du micro. Pour corser la difficulté, la voix s'exprime en français mais nous sommes à l'étranger, et la voix émane d'une étrangère parlant un français à l'accent marqué, et faisant quelques fautes grammaticales bien compréhensibles.


Résultat : YouTube a planté et n'a affiché aucune transcription ! Le sous-titrage automatique ne s'est carrément pas déclenché. L'aide YouTube précise en partie ce cas de figure : "Les sous-titres ne sont pas encore disponibles en raison de la complexité du contenu audio de la vidéo." YouTube précise "pas encore" mais plus de 5 jours après la mise en ligne, il n'y avait toujours aucun sous-titrage ! Et je ne pense pas qu'il y en aura.


En conclusion, YouTube est très fort pour transcrire la voix d'une personne parlant avec une très bonne diction "en studio". Peu ou pas d'erreur. Mais dès qu'il s'agit d'un des cas énoncés plus haut, la reconnaissance est bien plus difficile, et le taux d'erreurs grimpe en flèche. Jusqu'à ne pas déclencher la transcription. Passons au logiciel professionnel.



(Transcrire vos vidéos avec YouTube ou un logiciel pro ?)

Transcrire avec Happy Scribe

volière happy scribe

Il m'a paru intéressant de comparer la technologie YouTube à celle d'une technologie proche mais dévolue entièrement à l'usage de la transcription. J'ai choisi pour cela une des applications parmi les plus récentes, l'application payante Happy Scribe qui propose, comme son nom l'indique, de transcrire le texte de vos fichiers audio ou vidéo de façon professionnelle. Un essai gratuit de 30 minutes d'audio-vidéo transcrit est à votre disposition pour vous faire une première opinion.


Le logiciel, développé en 2017 par André Bastié, un français du Gers installé en Irlande, comporte une première différence avec YouTube : il accepte n'importe quel fichier audio ou vidéo. Par ailleurs, le logiciel se base sur un principe de Machine Learning. On est au-dessus de la mêlée en matière d'algorithmes puisque ce principe repose sur un auto-apprentissage. Plus le logiciel rencontre d'obstacles corrigés par l'utilisateur, plus elle apprend et se corrige. C'est la technologie du Machine Learning.


Un des autres intérêts de Happy Scribe est qu'il gère 119 langues (!). On peut donc partir par exemple d'une interview en anglais et si on ne la comprend pas bien - obtenir un support écrit pour la comprendre. Or on sait qu'en matière d'apprentissage de langue, le support de l'écrit est toujours plus facile pour comprendre une langue que le support oral.


scribe audio

D'abord Happy Scribe présente des filtres de reconnaissance audio pouvant tenir compte des conditions d'enregistrement. Par exemple, si la voix est perturbée par un environnement sonore, ou si le narrateur a un accent, on peut le lui indiquer. Si la voix est celle d'un étranger parlant le français, également. Etc.


transcribe

La procédure de transcription est différente de YouTube mais reste simple : on choisit son fichier, sa langue, et on lance la transcription. C'est assez rapide, la durée promise par les développeurs est de la moitié du temps de la vidéo, durée à laquelle il faut toutefois ajouter le temps d'upload du fichier (comme sur YouTube) qui est finalement le plus long.


On aura donc intérêt à uploader un fichier de mauvaise qualité vidéo, mais très léger, du moment que la qualité audio est bonne, histoire d'optimiser la reconnaissance. La mauvaise qualité permettra aussi de se prémunir de toute exploitation frauduleuse même si le site est sécurisé. Bien sûr, vous pouvez aussi supprimer à tout moment votre fichier des serveurs, après usage.


happy scribe

Une fois la transcription terminée, on découvre en vis à-vis la vidéo et le texte, avec les indications de time-code. C'est assez ergonomique A chaque mot prononcé, le terme correspondant du texte s'affiche en bleu, façon Karaoké. On peut revenir sur un mot à tout moment en cliquant dessus, ce qui ramène la vidéo à la position de lecture correspondante. YouTube adopte le même principe, mais sans l'effet Karaoké.


On peut aussi écouter les 5 dernières secondes lues, une fonction que j'ai beaucoup utilisée.


subtitles

Happy Scribe autorise des formats d'export beaucoup plus nombreux (.html, Word, .txt), les plus courants comme les plus variés. Pour ma part, j'ai choisi le format d'extension .srt qui s'est très bien comporté. Un certain nombre d'options - absentes sur YouTube - sont disponibles comme l'affichage (ou non) du compteur, l'affichage des surlignages, etc. Toutefois, si vous exportez en .srt, aucune option n'est nécessaire.


Notez qu'outre l'export, le partage direct de la transcription est aussi possible.


happy scribe

Chez YouTube comme chez Happy Scribe, il faut préciser que l'automatisme vous donne la main au bout d'un moment, c'est à dire que vous pouvez modifier manuellement la transcription avant export. C'est bien plus ergonomique sur Happy Scribe que sur YouTube. L'utilisateur d'Happy Scribe peut ainsi modifier son fichier texte à la manière que l'on corrigerait un simple fichier texte. Alors qu'avec YouTube, c'est ligne par ligne et c'est parfois poussif. Bien sûr, les deux systèmes reviennent au même résultat in fine.


Sur Happy Scribe, on peut aussi utiliser la fonction Remplacer pour substituer un même mot qui se répète alors qu'il est mal transcrit, cas avec les noms propres ou spécialisé par exemple.


Parmi les autres avantages du logiciel payant, l'ergonomie est bien supérieure à celle d'un YouTube, le passage d'un fichier à un autre pour les corrections sont bien plus rapides à mettre en oeuvre alors qu'elles sont plus poussives sur YouTube. Normal, ce dernier est avant tout un site de partage et non un logiciel de reconnaissance audio !


On recense aussi des renseignements sur le niveau de précision du texte, avec surlignage des termes qui ont posé problème, c'est appréciable.


Une fonction de recherche est également disponible (totalement absente sur YouTube), elle permet, parmi toutes vos transcriptions, de retrouver immédiatement le terme de votre choix.


Parmi les différences cruciales, YouTube ne semble pas transcrire le fichier s'il rencontre trop de difficultés à "entendre" le texte. Mais pour rappel, il s'agissait d'un torture-test.


Enfin, autre différence plus délicate à diagnostiquer, il semblerait que la qualité d'affichage du sous-titrage soit supérieure sur Happy Scribe (voir chapitre Montage).


tuto facile

Sur le plan des performances pures, j'ai soumis à Happy Scribe les mêmes 3 extraits vidéos que pour YouTube que j'ai par ailleurs prolongés avec des essais complémentaires d'une durée plus longue, par curiosité. Sur le 1er, réalisé en studio, sans perturbation, le logiciel n'a pas fait un sans fautes mais des fautes différentes de YouTube, c'est assez amusant. "Autofocus" a été reconnu et bien orthographié, et le logiciel a respecté la grammaire sur "la manière dont vous avez affecté", deux écueils savamment évités.


En revanche, la "limite AGC" est devenue "limitation essai" : une faute plus marquée que sur YouTube qui s'est borné à transcrire "limite à gc". De même "ou encore vos préréglages" n'a pas été correctement reconnu devenant "ou encore réglage" : une faute avec omission, plus grave que sur YT qui avait reconnu "vos pré réglage". Enfin Status Check est devenu "status tchèque" mais on ne peut pas reprocher une faute sur un terme aussi technique. YouTube avait aussi fait la faute.


Sur ce 1er extrait, Happy Scribe fait différemment de YouTube, mais hormis deux écueils évités, on ne peut pas dire que le logiciel payant fasse mieux. Egalité.


scribe happy volière

Pour le 2e extrait, celui de la volière avec fond sonore perturbant : Happy Scribe a parfaitement restitué la phrase qui avait posé problème à Youtube (nous sommes dans la volière tropicale du parc des oiseaux) qui était devenue sur YT "nous sommes dans la volière tropiques a donc dû par les oiseaux". Happy Scribe a aussi reconnu sans encombres "Ce sont les oiseaux qu'on peut voir" que YT avait ultra mal interprété ("l'or c'est sûr les zozos qu'on peut voir"). Bien sûr en revanche le logiciel pro s'est rétamé sur les noms d'oiseaux exotiques, y compris l'ibis blanc ("les bis blancs") alors que YT l'a reconnu puisqu'il l'a correctement transcrit et orthographié (l'ibis blanc).


voix étrnagère Happuyscribe

Pour le 3e extrait, extrêmement difficile, en extérieur, éloigné parfois du micro, et comportant un fort accent étranger de l'interlocutrice, le logiciel s'en est sorti honorablement (environ 50% de transcrit) mais a commis de nombreuses erreurs.


"Ici ce lion n'est pas en train de chasser ou manger le taureau" s'est transformé en :
"Ici soleil on n'est pas en train de chasser ou manger le.". Même le mot "taureau" n'a pas été transcrit, comme si le logiciel était totalement perdu sur le contenu de la phrase !


happy scribe affecté

Il m'a semblé que les accords grammaticaux sont mieux respectés sur Happy Scribe alors qu'ils ne le sont pas forcément sur YouTube. C'est criant avec notre fichier vidéo le plus facile. Youtube a transcrit "la manière dont vous avez affecter" alors que Happy Scribe a transcrit "la manière dont vous avez affecté". Ce dernier a donc correctement conjugué "affecté".


Au-delà des 3 exemples pris pour comparaison, j'ai poursuivi les transcriptions avec des textes plus longs (une dizaine de minutes) caractérisés par une prise de son correcte, mais en extérieur, avec un peu de vent. Les différences entre Youtube et Happy Scribe ne sont pas criantes pour le tout-venant : globalement, 98% à 99% du texte est transcrit correctement, mais comme la machine ne comprend pas a priori ce qu'elle lit, il y a une difficulté d'interprétation, deux fois sur trois, et l'erreur est faite par les deux systèmes. Mais globalement, Happy Scribe est moins mis en échec sur des petites nuances... Voire des grosses. Subitement, YouTube peut décrocher complètement là où Happy Scribe sort la bonne phrase. Ainsi la phrase "il faut les laisser de manière intacte et les sanctuariser dans des espaces purs" n'a pas posé souci à Happy Scribe, alors que Youtube a massacré la transcription : "il faut les laisser de manière un tactile et sans que tu as he is et dans des espaces purs"... :) L'inverse est plus rare, c'est à dire qu'il est rare que YouTube transcrive correctement une phrase sur laquelle Happy Scribe bute, excepté parfois sur des noms techniques (l'bis blanc) ou même des noms propres que YouTube va correctement orthographier !


happy scrie
Signalons aussi la faculté de visualiser toutes ses transcriptions et donc de pouvoir les modifier / réexporter à tout moment.
packs

On n'a rien sans rien, surtout quand il s'agit d'une offre professionnelle. Les tarifs de Happy Scribe se déclinent en 3 formules, la première étant un paiement à la minute de 0,15€, soit pour un film de 30 minutes sous-titré, 18 euros, ce qui reste raisonnable par rapport au temps gagné.


Il existe aussi une formule Starter et Business qui moyennant un abonnement mensuel, permet de descendre la prix de la minute à 0.10€. Et un essai gratuit de 30 minutes. Happy Scribe.



(Transcrire vos vidéos avec YouTube ou un logiciel pro ?)

Le sous-titrage au montage

fcpx

Transcrire puis exporter le texte écrit donne évidemment l'idée de les intégrer ensuite à son montage au titre du sous-titrage. C'est même le but du jeu pour un réalisateur.


Sur YouTube, les sous-titres sont intégrés d'office et accessibles depuis un petit logo correspondant situé en bas de la fenêtre, mais rien n'empêche, comme sur Happy Scribe, d'exporter son texte pour l'intégrer à son logiciel de montage habituel, dans un autre but que de diffuser sur YouTube (par exemple pour créer un DVD). Dans les deux cas, exporter dans le standard .srt, le plus courant, convient. Happy Scribe propose aussi une exportation spécifique pour Adobe en .xml mais il s'agit d'une Beta.


FCPX

Un essai sur Mac avec FCPX s'est révélé concluant. Le fichier nécessaire est exportable depuis YT ou depuis Happy Scribe. Puis il est importable sous FCPX via la commande Fichiers / Importer / Sous-titres codés. Cette fonction est relativement nouvelle, les fichiers .srt n'étaient pas reconnus par FCPX il y a quelque temps, ils s'affichaient en grisé.


fcpx

Le synchronisme est évidemment parfaitement respecté mais Happy Scribe offre en plus une option qui permet de réaligner des écarts de synchronisme.


FCPX sous-titrage

2 remarques :


-l'affichage est de moins bonne qualité sur YouTube avec des lettres qui apparaissent parfois de façon incomplète ou qui se chevauchent un peu. Aucune anormalité de ce type avec Happy Scribe (ci-dessus).


FCPX

-l'enchaînement entre 2 fichiers de sous-titres est un peu compliquée sur FCPX, je ne suis pas parvenu à un résultat satisfaisant, il vaut mieux si vous le pouvez, ne constituer qu'un seul fichier de sous-titres.


Enfin retenez que Happy Scribe permet aussi d'exporter pour Premiere (version Béta) entre autres formats d'export. Et probablement sur d'autres logiciels, ce qui fera l'objet d'un essai ultérieur.



(Transcrire vos vidéos avec YouTube ou un logiciel pro ?)

Cet article vous a plu ?
Vous souhaitez télécharger le PDF ?
Bénéficiez du Premium
Des tests objectifs, des articles pointus,
des pubs non-intrusives,
dépendent de vous !