Uploaded image for project: 'PDFBox'
  1. PDFBox
  2. PDFBOX-4904

Bold text leads to wrong order - Text extraction

    XMLWordPrintableJSON

Details

    Description

      When extracting the text from a PDF bold text seems to be out of order under some conditions.

       

      try (PDDocument doc = PDDocument.load(new File("152-0130-20-B-Ö-43.pdf"))) {
          PDFTextStripper stripper = new PDFTextStripper();
          String contents = stripper.getText(doc);
          System.out.println(contents);
      }
      

      See section w) - the text should be:

      Präqualifizierte Unternehmen führen den Nachweis der Eignung durch den Eintrag in
      die Liste des Vereins für die Präqualifikation von Bauunternehmen e.V.
      (Präqualifikationsverzeichnis). ...

      But it actually is:

       führen den Nachweis der Eignung durch den Eintrag in Präqualifizierte Unternehmen
      die Liste des Vereins für die Präqualifikation von Bauunternehmen e.V.
      (Präqualifikationsverzeichnis).

       

      I attached an example PDF.

       

      /edit: pdfjs and Acrobat can copy/paste the text in order.

      Attachments

        1. 152-0130-20-B-Ö-43.pdf
          44 kB
          Ronald Bergmann
        2. 152-0130-20-B-Ö-43.txt
          7 kB
          Maruan Sahyoun
        3. Two columns 1.pdf
          9 kB
          Alfred

        Activity

          People

            msahyoun Maruan Sahyoun
            ronald.bergmann Ronald Bergmann
            Votes:
            0 Vote for this issue
            Watchers:
            4 Start watching this issue

            Dates

              Created:
              Updated:
              Resolved: