[PDFBOX-569] Text-Extraction of PDF fails - ASF JIRA

XML

Word

Printable

JSON

Details

Type: Bug
Status: Closed
Priority: Blocker
Resolution: Fixed
Affects Version/s: 0.8.0-incubator
Fix Version/s: 1.7.0
Component/s: Text extraction
Labels:
None
Environment:
1.6.0_11

Description

Using trunk this Exception occurs when extracting text of attached PDF.

[WARN] PDFParser - invalid xref line: 0
java.io.IOException: Cannot create font if /Type is not /Font. Actual=COSName

{FontDescriptor}

at org.apache.pdfbox.pdmodel.font.PDFontFactory.createFont(PDFontFactory.java:95)
at org.apache.pdfbox.pdmodel.font.PDFontFactory.createFont(PDFontFactory.java:68)
at org.apache.pdfbox.pdmodel.PDResources.getFonts(PDResources.java:117)
at org.apache.pdfbox.util.PDFStreamEngine.processSubStream(PDFStreamEngine.java:206)
at org.apache.pdfbox.util.PDFStreamEngine.processStream(PDFStreamEngine.java:188)
at org.apache.pdfbox.util.PDFTextStripper.processPage(PDFTextStripper.java:367)
at org.apache.pdfbox.util.PDFTextStripper.processPages(PDFTextStripper.java:291)
at org.apache.pdfbox.util.PDFTextStripper.writeText(PDFTextStripper.java:247)

Attachments

- Sort By Name
- Sort By Date
- Ascending
- Descending

b820GL0204.pdf
25/Nov/09 16:36
708 kB
Stephan Götter
TextExtractionFix-569.patch
16/Sep/11 18:18
0.6 kB
LynX

Activity

People

Assignee:: Andreas Lehmkühler

Reporter:: Stephan Götter

Votes:: 0 Vote for this issue

Watchers:: 3 Start watching this issue

Dates

Created:: 25/Nov/09 16:34

Updated:: 29/May/12 16:21

Resolved:: 18/Dec/11 16:33