Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
tesseract-ocr [Le 06/05/2013, 11:22] – [Exemple] 195.221.155.2 | tesseract-ocr [Le 12/09/2020, 14:19] (Version actuelle) – [Erreur à l'utilisation] 78.203.12.33 | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
+ | {{tag> | ||
+ | ---- | ||
+ | |||
+ | ====== Tesseract OCR ====== | ||
+ | |||
+ | **Tesseract OCR** est un moteur de [[: | ||
+ | |||
+ | La page de la documentation sur [[https:// | ||
+ | |||
+ | Tesseract a pour vocation d' | ||
+ | * soit directement, | ||
+ | * soit avec des surcouches gérant les mises en page complexes, etc., comme [[: | ||
+ | |||
+ | ===== Installation ===== | ||
+ | [[: | ||
+ | Il existe d' | ||
+ | * **[[apt> | ||
+ | * **[[apt> | ||
+ | * **[[apt> | ||
+ | * **[[apt> | ||
+ | * **[[apt> | ||
+ | * **[[apt> | ||
+ | * **[[apt> | ||
+ | * **[[apt> | ||
+ | |||
+ | ===== Utilisation ===== | ||
+ | <note important> | ||
+ | |||
+ | Il faut donc numériser au moins à **300 voire 600 ppp** (Point Par Pouce ou DPI) | ||
+ | |||
+ | Quant au type de fichier, le format [[wpfr> | ||
+ | |||
+ | ======= Erreur à l' | ||
+ | Si vous obtenez ce message : | ||
+ | |||
+ | Error opening data file / | ||
+ | Please make sure the TESSDATA_PREFIX environment variable is set to your " | ||
+ | Failed loading language 'Error opening data file / | ||
+ | Tesseract couldn' | ||
+ | Could not initialize tesseract. | ||
+ | |||
+ | Copier le répertoire « tesseract-ocr ». Depuis usr/ | ||
+ | |||
+ | Les fichiers de langues se trouve à cette emplacement : | ||
+ | usr/ | ||
+ | |||
+ | ==== En ligne de commande ==== | ||
+ | |||
+ | Dans un [[: | ||
+ | < | ||
+ | le fichier de sortie sera au format texte .txt … on perd donc la mise en page! | ||
+ | |||
+ | Pour traiter plusieurs fichiers, vous pouvez faire : | ||
+ | < | ||
+ | |||
+ | Pour traiter un pdf image de plusieurs pages : | ||
+ | < | ||
+ | for f in *.tif;do tesseract $f $f -l fra;done | ||
+ | cat *.txt > document.txt</ | ||
+ | |||
+ | |||
+ | ==== Les options de langues ==== | ||
+ | Si vous avez installé les fichiers pour la reconnaissance de texte en d' | ||
+ | < | ||
+ | -l eng (pour l' | ||
+ | -l deu (pour l' | ||
+ | -l epo (pour l' | ||
+ | -l spa (pour l' | ||
+ | -l ita (pour l' | ||
+ | -l nld (pour le néerlandais) | ||
+ | -l por (pour le portugais) | ||
+ | -l vie (pour le vietnamien) | ||
+ | -l deu-f (pour le vieil-allemand) | ||
+ | </ | ||
+ | |||
+ | La liste des langues est disponible sur la [[https:// | ||
+ | |||
+ | Vous pouvez aussi indiquer que les pages contiennent plusieurs langues différentes en indiquant **-l fra+epo** par exemple pour des images qui contiennent du texte en français et du texte en espéranto. | ||
+ | ==== En mode graphique avec « gscan2pdf » ==== | ||
+ | Les explications sont données sur [[: | ||
+ | |||
+ | ==== En mode graphique avec XSane ==== | ||
+ | Il est possible d' | ||
+ | |||
+ | <note tip>Pour réaliser de la Reconnaissance optique de caractères : | ||
+ | * sur un document déjà numérisé, on utilise [[gscan2pdf|gscan2pdf]]. | ||
+ | * sur un document à numériser, on utilise plutôt [[xsane|XSane]], | ||
+ | |||
+ | </ | ||
+ | ==== En mode graphique avec YAGF ==== | ||
+ | Les explications sont données sur [[:yagf|la page YAGF]]. | ||
+ | |||
+ | ==== En mode graphique avec gimagereader ==== | ||
+ | Les explications sont données sur [[: | ||
+ | |||
+ | ==== Pour une reconnaissance optique directe dans LibreOffice Writer de fichiers PNG ou JPG ==== | ||
+ | |||
+ | === pour lancer l'OCR sur un document PNG (ou JPG) présent sur le bureau === | ||
+ | |||
+ | == pour les documents PNG == | ||
+ | - [[: | ||
+ | #!/bin/bash | ||
+ | cd ~/Bureau | ||
+ | convert *.png sortie.tif ; | ||
+ | # il est plus prudent de corriger le bpp maximum pour le fichier tiff de sortie (max 8 pour tesseract -> depth = 4) | ||
+ | # soit convert -depth 4 *.png sortie.tif ; | ||
+ | tesseract sortie.tif sortie -l fra ; | ||
+ | rm sortie.tif | ||
+ | lowriter sortie.txt</ | ||
+ | - [[: | ||
+ | - Placez-le dans le dossier des [[: | ||
+ | - Créez un lanceur ou une entrée dans le menu comme indiqué ci-dessous. | ||
+ | |||
+ | == pour les documents JPG == | ||
+ | Pour faire de même avec les fichiers images JPG (comportant du texte à reconnaître bien sûr), vous pouvez remplacer " | ||
+ | |||
+ | === Créer un lanceur pour votre script === | ||
+ | |||
+ | Pour créer un raccourci de votre script, reportez-vous à la page de création de [[: | ||
+ | - Donnez-lui un nom par exemple : " | ||
+ | - Pointez vers le script en question, c'est à dire le fichier texte " | ||
+ | - Vous pouvez utiliser cette icône {{: | ||
+ | - Vous pouvez ajouter un commentaire, | ||
+ | |||
+ | === Utilisation === | ||
+ | - Enlevez du bureau les fichiers PNG sur lesquels vous ne voulez pas faire de ROC. | ||
+ | - Placez sur le bureau vos fichiers numérisés au format PNG (le mieux est un PNG en valeurs de gris et 300 dpi avec Xsane, mais vous pouvez essayer avec d' | ||
+ | - Vous pouvez placer sur le bureau plusieurs fichiers PNG sur lesquels vous voulez procéder à la reconnaissance optique, mais ne dépassez pas 3-4 fichiers si vous voulez une opération relativement rapide. \\ Les contenus des différents fichiers seront placés les uns à la suite des autres dans un même document Libreoffice. | ||
+ | - Cliquez sur le raccourci précédemment créé ou directement sur le script... patientez un peu... Libreoffice s' | ||
+ | - Il vous reste a effectuer les corrections orthographiques et la mise en page. | ||
+ | |||
+ | Même méthode pour les fichiers au format JPG, en utilisant l' | ||
+ | |||
+ | N.B. : au passage, un document '' | ||
+ | |||
+ | ==== Autre méthode : pour une reconnaissance optique directe d'un ou plusieurs fichiers PNG ou JPG dans Nautilus ==== | ||
+ | |||
+ | - [[: | ||
+ | #!/bin/sh | ||
+ | |||
+ | mypath=" | ||
+ | for filename in " | ||
+ | do | ||
+ | if [ -n " | ||
+ | tesseract " | ||
+ | fi | ||
+ | done {} | ||
+ | exit 0</ | ||
+ | |||
+ | - [[: | ||
+ | |||
+ | Dans Nautilus vous pouvez désormais sélectionner un ou plusieurs fichiers PNG et/ou JPG, faites un clic droit et exécutez le script " | ||
+ | =====Utilisation avancée : Amélioration de la reconnaissance ===== | ||
+ | |||
+ | Si vous souhaitez améliorer la reconnaissance optique de caractères vous trouverez des explications sur le site **(en)** [[https:// | ||
+ | |||
+ | =====Désinstallation===== | ||
+ | Pour supprimer cette application, | ||
+ | Selon la méthode choisie, la configuration globale des applications sont conservées ou supprimées. Les journaux du système, et les fichiers de préférence des utilisateurs dans leurs dossiers personnels sont toujours conservés. | ||
+ | |||
+ | ===== Liens ===== | ||
+ | |||
+ | * [[https:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[https:// | ||
+ | * [[:ocr|La page de la documentation francophone Ubuntu sur la reconnaissance optique de caractères]] | ||
+ | * [[https:// | ||
+ | |||
+ | ---- | ||
+ | |||
+ | // |