LabVIEWForum.de
PDF-Dateien als String einlesen und verarbeiten - Druckversion

+- LabVIEWForum.de (https://www.labviewforum.de)
+-- Forum: LabVIEW (/Forum-LabVIEW)
+--- Forum: LabVIEW Allgemein (/Forum-LabVIEW-Allgemein)
+---- Forum: ActiveX & .Net (/Forum-ActiveX-Net)
+---- Thema: PDF-Dateien als String einlesen und verarbeiten (/Thread-PDF-Dateien-als-String-einlesen-und-verarbeiten)



PDF-Dateien als String einlesen und verarbeiten - F.Bi - 13.12.2016 10:04

Ich lese mit Hilfe der PDFBox-0.7.2.dll PDF-Fertigungsberichte von einer Glatt-Maschine als Text ein und suche darin bestimmte Angaben.
Infos PDFBox: http://www.codeproject.com/KB/string/pdf2text.aspx
http://forums.ni.com/t5/Example-Program-Drafts/Extract-PDF-Text-and-Search-using-PDF-Box/ta-p/3534906
http://sourceforge.net/projects/pdfbox/files/

Jetzt soll das auch mit PDF-Fertigungsberichten einer Bohle-Maschine geschehen, allerdings gibt es damit Probleme.

Der String, denn ich über die PDFBox-dll einlese, enthält diesmal keine Umbrüche oder sonstige Steuerzeichen - der Text ist im Prinzip ein Bandwurm. Anfang und Ende der Einträge sind nicht erkennbar. Deshalb ist ein Suchen nach bestimmten Begriffen bzw. den darauf folgenden Variablen "unmöglich". Der Bericht scheint aus Tabellen zu bestehen und die gesuchten Variablen stehen nicht direkt hinter dem entsprechenden Klartext-Begriff, dazwischen befinden sich unbestimmt viele Zeichen. Die original PDF-Berichte darf ich leider nicht veröffentlichen.

PDFBox-0.7.2 kann scheinbar die Tabelle bzw. die zwangläufig vorhandenen Steuerzeichen nicht interpretieren bzw. einlesen / ausgeben. Version 1.7.0 und 1.8.7 konnte ich nicht mit LabVIEW nutzen.

Nun meine Fragen:

Gibt es eine Möglichkeit, die Steuerzeichen mit PDFBox einzulesen?

Als Alternative zur PDFBox-dll habe ich pdftotext (https://en.wikipedia.org/wiki/Pdftotext - open source command-line) und XpdfText (http://www.glyphandcog.com/XpdfText.html) zum Einlesen von textbasierten PDF-Dateien gefunden, wobei bei pdftotext der Umweg über eine txt-Datei genommen werden muss.
Für XpdfText werden Run Time Licenses benötigt, für pdftotext (GNU) auch?

Irgendwo im Internet hatte ich vor längerer Zeit auch was von einer Adobe Acrobat-dll gelesen, ich finde die Seite aber leider nicht mehr. Diese DLL müsste in einem Acrobat (nicht Reader) enthalten sein. Falls diese in Acrobat Standard enthalten ist, komme ich einfacher dran, als an Xpdf Lizenzen.

Gibt es weitere (freie) Alternativen?