PDF à TXTS dans Ubuntu

PDF à TXTS dans Ubuntu


Ubuntu fournit des outils de graphiques et de ligne de commande pour convertir les fichiers de documents portables (PDF) en format texte. La version en ligne de commande, "pdftotext", automatise le processus en incluant la commande de conversion dans un script shell. De cette façon, plusieurs fichiers PDF peuvent être modifiés en même temps. Un certain nombre d'options de ligne de commande fournies avec la commande permettent des actions spécifiques (telles que seulement convertir les quelques premières pages) avoir lieu chaque fois qu'il est exécuté.

pdftotext Obtention

Obtenir les paquets appropriés et commande "pdftotext" des bibliothèques Ubuntu via la commande:

sudo apt-get install poppler-utils

Assurez-vous que le package installe correctement avant de tenter de l'utiliser.

pdftotext Man page

Apprenez comment fonctionne la commande de pdftotext et de vous familiariser avec les options de ligne de commande disponibles. Regardez la page de manuel pour la commande entrant "man pdftotext" à l'invite du shell de ligne de commande, et appuyez sur "Entrée". Les options de ligne de commande sont constitués de lettres, préfixées par un tiret, comme "-l", et ils offrent tous des fonctions différentes.

La commande standard pour pdftotext est "pdftotext <PDFfile> <textfile>" (sans les guillemets) où <PDFfile> est le nom du fichier PDF pour extraire, comme «report.pdf» et <textfile> est le nom du texte fichier de sortie, tels que "report.txt". Vous pouvez utiliser le nom de votre choix.

Batch Conversion PDF

Testez la commande en essayant sur quelques fichiers PDF individuellement. S'il est correct, vous pouvez essayer de l'utiliser sur un certain nombre de fichiers PDF dans des scripts shell pour automatiser le processus. Un exemple d'un scénario typique est montrée ci-dessous:

for i in * .pdf

faire

pdftotext $i $i.txt

terminé

Ce script prend tous les fichiers PDF dans le répertoire courant et les exporte avec leur nom à un fichier de texte, de sorte que "report.pdf" deviendrait "report.pdf.txt"

PDF fichiers protégés

Certains fichiers PDF sont protégés, soit avec des mots de passe ou mis en place pour empêcher l'exportation de texte du document. Ceci est une tentative de protéger le droit d'auteur et si tel est le cas peut-être vous feriez mieux de reconsidérer la conversion à partir d'un point de vue juridique. Si vous avez le mot de passe pour un fichier PDF, il peut être passé dans les options de ligne de commande pour "pdftotext".