Details
-
Bug
-
Status: Closed
-
Minor
-
Resolution: Not A Bug
-
2.0.20
-
JDK 8
Description
When extracting the text from a PDF bold text seems to be out of order under some conditions.
try (PDDocument doc = PDDocument.load(new File("152-0130-20-B-Ö-43.pdf"))) { PDFTextStripper stripper = new PDFTextStripper(); String contents = stripper.getText(doc); System.out.println(contents); }
See section w) - the text should be:
Präqualifizierte Unternehmen führen den Nachweis der Eignung durch den Eintrag in
die Liste des Vereins für die Präqualifikation von Bauunternehmen e.V.
(Präqualifikationsverzeichnis). ...
But it actually is:
führen den Nachweis der Eignung durch den Eintrag in Präqualifizierte Unternehmen
die Liste des Vereins für die Präqualifikation von Bauunternehmen e.V.
(Präqualifikationsverzeichnis).
I attached an example PDF.
/edit: pdfjs and Acrobat can copy/paste the text in order.