Tuto OCR

jeudi, mai 15, 2014


C'est le premier tuto que je fais.
Je ne suis pas un pro ou autre donc il se peut qu'il y ait mieux comme méthode en tout cas, voici la mienne.
Vous aimez, tant mieux, vous n'aimez pas, tant pis, mais ça pourra servir.

Donc qu'est-ce que l'OCR ?

C'est une technique qui permet de reconnaître les sous-titres sur une vidéo hardsubbée (Désolé si je le dis d'une manière bizarre). Pas mal de gens se demandent comment récupérer les sous-titres de ces dernières et bien voici la méthode. Elle est issu de ce site : http://subs.com.ru/page.php?al=videosubfinder_hardsub.
Normalement rien qu'avec les images, vous devriez comprendre. Vu que Video Sub Finder est en Anglais, je rependrai donc leurs images, mais Abbyy Fine reader est en Français donc bon...

Video Sub Finder est gratuit & trouvable ici : http://sourceforge.net/projects/videosubfinder/
Abbyy Fine reader est payant et vous pouvez l'acheter ici : http://france.abbyy.com/finereader/ (Ou l'avoir par vos propres moyens mais je ne m'étendrai pas là-dessus).
J'utilise la version 11 d'Abbyy pour ma part mais avec la 10 c'est bon aussi je crois.

Donc tout d'abord, ouvrez Video Sub Finder. Allez dans file puis Open video All Default
Après cela, vous choisissez votre vidéo. Elle doit être en avi mp4 mais le Mkv ne fonctionne pas (En même temps...)


Vous avez ensuite ces 2 fenêtres qui apparaissent. À gauche, vous trouvez la vidéo originale en mp4. Celle qui sera traitée. À droite, c'est la boite à image qui affichera le "1er traitement" de la capture des sous-titres par OCR. Ces images seront stockées dans le dossier FRDImages & les images avec chaque sous-titres seront dans RGBImages (mais ça très sincèrement, on s'en fout :p). Ensuite comme la capture d'écran du site Russe le monte, faites Run search & la recherche commence. Si vous avez déjà fait un OCR, n'oubliez pas de faire clear folders sinon bonjour le bordel. En général ça dure environ 30-35 minutes selon le PC voire moins. C'est pas hyper rapide, mais c'est pas non plus super long.



Une fois que c'est fini, vous créez un fichier de sous-titres vide puis vous faites Create Cleared TXT images & là, le logiciel va analyser les résultats précédents pour en faire quelque chose de propre, mais toujours au format image. Bon là j'ai un peu raccourci par rapport à la version Russe mais bon, c'est pas bien complexe. On attend après cela & voilà, ça sera stocké dans un autre dossier nommé TXTImages.

C'en est fini (pour l'instant) pour Video Sub Finder. Passons à Abbyy Fine reader (Ne fermez pas encore Video Sub Finder).

Bon ce coup-ci je prends les screens de mon logiciel car la version Russe... Voilà quoi, on est pas beaucoup à la comprendre & à votre place j'aurais un gros point d'interrogation sur la tête.


Donc une fois ouvert, vous allez dans Ouvrir un fichier/une image PDF puis vous sélectionnez toutes les images du répertoire TXTImages qui se trouve dans le dossier de VideoSubFinder.
Vous vous retrouverez alors avec avec quelque chose comme ça :


Je n'ai pas pris l'écran tout entier mais bon, je pense que vous serez en mesure de comprendre.
En noir, nous avons l'image crée via VideoSubFinder (le résultat de l'OCR) puis à droite le texte correspondant. En regardant de plus près (Lien de l'image : http://puu.sh/b9lrI/728caebde2.png), vous voyez bien que ça correspond à première vue mais ce n'est pas encore fini... mais presque. Sur le site Russe, ils préconisent de corriger les erreurs directement depuis Abbyy mais sincèrement, c'est assez long... et chiant, surtout que la plupart n'en sont pas réellement. Corrigez cela directement depuis Aegisub (via le correcteur orthographique dans un premier temps), c'est BEAUCOUP plus simple.

Normalement il n'y a que très peur d'erreurs mais ça arrive, surtout au niveau des caractères vides mais ils n'ont aucune incidence.


Enregistrez ensuite cela au format texte dans le dossier "TXTResults" se trouvant également dans le répertoire subfinder (NE CHANGEZ PAS LE NOM DU FICHIER TEXTE).

Retournez à présent sur video subfinder et cliquez sur "Create sub from TXTResults" et ça devrait être bon.


Ouvrez ensuite le fichier nouvellement crée, choisissez UTF8 si on vous le demande à l'ouverture d'Aegisub puis ensuite vous aurez quelque chose qui ressemble un peu à ça :


(Gros mix de Nazo & de Working mdr).
Bon au final on a les caractères vides (On les sélectionne puis on les remplace par rien (en gros on les efface)) qui ne gênent pas du tout & un "-" qui s'est enlevé. Pour les noms de style, c'est là le gros soucis, mais si vous en mettez un seul par défaut pour tout le script (ou que vous avez la foi d'en faire plus), libre à vous.

Voilà, j'espère que ça vous servira. Même si je ne donne pas les ass des épisodes (inutile de les demander), vous aurez un moyen de pouvoir les récupérer. C'est pas super méga rapide (quoi que... Vous pouvez faire autre chose en attendant, vous n'êtes pas prisonniers de votre PC), néanmoins, c'est toujours plus rapide & surtout plus simple que le travail effectué en amont (traduction & encodage & upload) donc contentez-vous de cela, surtout que ça m'a demandé du temps de faire ce tuto ;).

Vous en voulez plus ?

2 commentaires

  1. En fait c'est un troll ton article ?
    Tu ne donnes pas les sous titres, mais tu fais un tuto pour OCR tes propres vidéos.
    En plus d'être pas futé à proposer seulement du mp4 8 bits, t'es pas sado avec les gens xD

    RépondreSupprimer
    Réponses
    1. Il n'y a pas que du Mp4 8bits depuis 1 an (même si cette saison il n'y a que ça pour l'instant & j'en ai expliqué les raisons).

      Ex : Yuri on Ice, Prince of Stride, Rokudenashi...

      Supprimer