[Google] Technique OCR pour indexer les fichiers PDF

Membre Honoré
Google a publier un article concernant l'indexation des fichiers PDF et l'utilisation de système de type OCR (Reconnaissance optique de caractères) pour améliorer l'indexation des fichiers.


On peut voir quand même plus de 315 millions de fichiers PDF indexés sur Google.
Voir la commande filetype:pdf :
https://www.google.com/search?q=filetype%3Apdf


Les améliorations permettent d'avoir accès aux fichiers PDF au format HTML depuis les résultats de recherche Google.

Un des exemples officiel de Google : [repairing aluminum wiring]


Source et information : Official Google Blog : A picture of a thousand words ?

Qu'est l'OCR (Reconnaissance optique de caractères) : fr.wikipedia.org/wiki/OCR
 
Discussions similaires
Haut