Outils pour utilisateurs

Outils du site


restricted:convert:start

Conversion des documents au format dokuwiki

La conversion des documents au format dokuwiki à deux but. D'abord la lecture d'une page de texte avec la possibilité de faire des recherches dans la page et des copier/coller. Ensuite Dokuwiki indexe automatiquement la page, ce qui permet la recherche de mots clefs parmis les documents (éventuellement restreint à un “namespace”).

Pandoc

Pandoc est devenu le couteau suisse de la conversion de documents.

Dans le contexte d'anticor la syntaxe la plus utilisée est :
pandoc file_in.docx -f docx -t dokuwiki -o file_out.txt

Pour les programmeurs pypandoc est une librairie en Python autour de pandoc.

LibreOffice

Pandoc ne converti pas les fichiers .doc (et .xls ?). Il est nécessaire de convertir les fichiers d'origine dans un format intermédiaire .docx. Libreoffice (soffice) est le logiciel qu'il nous faut.

soffice –convert-to docx *.doc

pdftotext

pdftotext est utilisé pour convertir des fichiers .pdf texte en texte. Notons que Pandoc n'utilise pas les fichiers .pdf comme source.

pdftotext -layout -enc UTF-8 x.pdf

Ocr

L'Ocr (reconnaissance optique de caractère - Optical character recognition) est utilisée lorsque le document est sous forme d'image. Cela indique généralement que le fournisseur du document n'est pas l'auteur du document adminstratif ou de la mauvaise volonté de l'auteur.

restricted/convert/start.txt · Dernière modification : de 127.0.0.1