[Google] Technique OCR pour indexer les fichiers PDF

Madrileño · 31 Octobre 2008

Google a publier un article concernant l'indexation des fichiers PDF et l'utilisation de système de type OCR (Reconnaissance optique de caractères) pour améliorer l'indexation des fichiers.

On peut voir quand même plus de 315 millions de fichiers PDF indexés sur Google.
Voir la commande filetypedf :
https://www.google.com/search?q=filetype%3Apdf

Les améliorations permettent d'avoir accès aux fichiers PDF au format HTML depuis les résultats de recherche Google.

Un des exemples officiel de Google : [repairing aluminum wiring]

Source et information : Official Google Blog : A picture of a thousand words ?

Qu'est l'OCR (Reconnaissance optique de caractères) : fr.wikipedia.org/wiki/OCR

ecocentric · 31 Octobre 2008

Google bosse aussi sur des projets Open Source dans l'OCR dans le cadre de Google Books (OCRopus , tesseract,...). Ya du boulot parce que les outils sont encore incomplets. Un petit tour d'horizon ici: http://www.robertviseur.be/page-news-cat-17.php (voir les articles avec OCR, dont qq tests de décodage de captchas ^^).

Rod la Kox · 31 Octobre 2008

Vu que les spammers OCRizent les antispam, heureusement que GG sait le faire...

ecocentric · 31 Octobre 2008

Rod la Kox a dit:
Vu que les spammers OCRizent les antispam, heureusement que GG sait le faire...

Je précise que je ne suis pas un spammeur; par contre, j'ai l'esprit joueur :mrgreen: .