Uploaded image for project: 'PDFBox'
  1. PDFBox
  2. PDFBOX-3189

java.io.IOException is thrown from both NonSequentialPDFParser and PDFParser

    Details

    • Type: Bug
    • Status: Closed
    • Priority: Major
    • Resolution: Fixed
    • Affects Version/s: 1.8.10, 1.8.11, 2.0.0
    • Fix Version/s: 2.0.0
    • Component/s: Text extraction
    • Labels:
      None

      Description

      On parsing of complex PDF document both NonSequentialPDFParser and PDFParser throw java.io.IOException (different causes).

      NonSequentialPDFParser:

      Caused by: java.io.IOException
      at org.apache.pdfbox.filter.FlateFilter.decode(FlateFilter.java:109)
      at org.apache.pdfbox.cos.COSStream.doDecode(COSStream.java:379)
      at org.apache.pdfbox.cos.COSStream.doDecode(COSStream.java:291)
      at org.apache.pdfbox.cos.COSStream.getUnfilteredStream(COSStream.java:225)
      at org.apache.pdfbox.pdfparser.PDFObjectStreamParser.<init>(PDFObjectStreamParser.java:64)
      at org.apache.pdfbox.pdfparser.NonSequentialPDFParser.parseObjectDynamically(NonSequentialPDFParser.java:1493)

      PDFParser:

      Caused by: java.io.IOException: Error: Expected a long type at offset 465, instead got '163111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111'
      at org.apache.pdfbox.pdfparser.BaseParser.readLong(BaseParser.java:1695)
      at org.apache.pdfbox.pdfparser.BaseParser.readObjectNumber(BaseParser.java:1623)
      at org.apache.pdfbox.pdfparser.PDFObjectStreamParser.parse(PDFObjectStreamParser.java:99)
      at org.apache.pdfbox.cos.COSDocument.dereferenceObjectStreams(COSDocument.java:683)
      at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:255)

      Please, see in attachments full StackTrace for both cases and failing document for reference.

        Attachments

        1. obannual35_2015.pdf
          7.31 MB
          Yauheni Salopiy
        2. PDFBOX-3189_StackTrace.txt
          10 kB
          Yauheni Salopiy

          Activity

            People

            • Assignee:
              lehmi Andreas Lehmkühler
              Reporter:
              Genstr Yauheni Salopiy
            • Votes:
              0 Vote for this issue
              Watchers:
              4 Start watching this issue

              Dates

              • Created:
                Updated:
                Resolved: