Uploaded image for project: 'PDFBox'
  1. PDFBox
  2. PDFBOX-4904

Bold text leads to wrong order - Text extraction

VotersWatch issueWatchersLinkCloneUpdate Comment AuthorReplace String in CommentUpdate Comment VisibilityDelete Comments
    XMLWordPrintableJSON

    Details

      Description

      When extracting the text from a PDF bold text seems to be out of order under some conditions.

       

      try (PDDocument doc = PDDocument.load(new File("152-0130-20-B-Ö-43.pdf"))) {
          PDFTextStripper stripper = new PDFTextStripper();
          String contents = stripper.getText(doc);
          System.out.println(contents);
      }
      

      See section w) - the text should be:

      Präqualifizierte Unternehmen führen den Nachweis der Eignung durch den Eintrag in
      die Liste des Vereins für die Präqualifikation von Bauunternehmen e.V.
      (Präqualifikationsverzeichnis). ...

      But it actually is:

       führen den Nachweis der Eignung durch den Eintrag in Präqualifizierte Unternehmen
      die Liste des Vereins für die Präqualifikation von Bauunternehmen e.V.
      (Präqualifikationsverzeichnis).

       

      I attached an example PDF.

       

      /edit: pdfjs and Acrobat can copy/paste the text in order.

        Attachments

        1. Two columns 1.pdf
          9 kB
          Alfred
        2. 152-0130-20-B-Ö-43.txt
          7 kB
          Maruan Sahyoun
        3. 152-0130-20-B-Ö-43.pdf
          44 kB
          Ronald Bergmann

          Activity

            People

            • Assignee:
              msahyoun Maruan Sahyoun
              Reporter:
              ronald.bergmann Ronald Bergmann

              Dates

              • Created:
                Updated:
                Resolved:

                Issue deployment