[PDFBOX-3968] IllegalArgumentException: root cannot be nul - ASF JIRA

XML

Word

Printable

JSON

Details

Type: Bug
Status: Closed
Priority: Major
Resolution: Cannot Reproduce
Affects Version/s: 2.0.7
Fix Version/s: None
Component/s: PDModel
Labels:
None

Description

I got the exception to extract HTML from PDF file:

org.apache.tika.exception.TikaException: Unexpected RuntimeException from org.apache.tika.parser.pdf.PDFParser@7ca231e4
	at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:282)
	at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280)
	at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280)
	...
Caused by: java.lang.IllegalArgumentException: root cannot be null
	at org.apache.pdfbox.pdmodel.PDPageTree.<init>(PDPageTree.java:75)
	at org.apache.pdfbox.pdmodel.PDDocumentCatalog.getPages(PDDocumentCatalog.java:129)
	at org.apache.pdfbox.pdmodel.PDDocument.getNumberOfPages(PDDocument.java:1398)
	at org.apache.tika.parser.pdf.PDFParser.extractMetadata(PDFParser.java:243)
	at org.apache.tika.parser.pdf.PDFParser.parse(PDFParser.java:154)
	at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280)
	... 25 more

Attachments

Activity

People

Assignee:: Unassigned

Reporter:: Jorge Spinsanti

Votes:: 0 Vote for this issue

Watchers:: 2 Start watching this issue

Dates

Created:: 17/Oct/17 12:19

Updated:: 23/Oct/17 17:18

Resolved:: 23/Oct/17 17:18