Uploaded image for project: 'PDFBox'
  1. PDFBox
  2. PDFBOX-4992

PDF created by Bullzip PDF Printer / www.bullzip.com / Freeware Edition shows weird characters

VotersWatch issueWatchersLinkCloneUpdate Comment AuthorReplace String in CommentUpdate Comment VisibilityDelete Comments
    XMLWordPrintableJSON

Details

    • Bug
    • Status: Closed
    • Major
    • Resolution: Not A Bug
    • 2.0.21
    • None
    • Text extraction
    • windows
    • Hide
      I get a lot of msgs in the log like:
      WARNING: No Unicode mapping for 7 (7) in font null
      Oct 17, 2020 5:00:23 PM org.apache.pdfbox.pdmodel.font.PDSimpleFont toUnicode
      WARNING: No Unicode mapping for 8 (8) in font null
      Oct 17, 2020 5:00:23 PM org.apache.pdfbox.pdmodel.font.PDSimpleFont toUnicode


      The extracted document shows like this:
      <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
      "http://www.w3.org/TR/html4/loose.dtd">
      <html><head><title>https://2brightsparks.onfastspring.com/...unt/order/2BR180831-9532-88246/invoice&lt;/title>
      <meta http-equiv="Content-Type" content="text/html; charset="UTF-8">
      </head>
      <body>
      <div style="page-break-before:always; page-break-after:always"><div><p>&#0;&#1;&#2;&#3;&#1;&#4;&#5;&#3;&#0; &#6;&#7;&#8;&#9;&#10;&#1;&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#18;&#19;&#20;&#15;&#9;&#7;&#9;&#8;&#12;&#13;&#19;&#14;&#17;&#21;&#18;&#22;&#1;&#15;&#21;&#21;&#18;&#23;&#19;&#7;&#1;&#18;&#12;&#24;&#25;&#12;&#1;&#4;&#26;&#27;&#3;&#0;&#5;&#0;&#2;&#3;&#28;&#29;&#30;&#2;&#4;&#28;&#0;&#0;&#4;&#31; &#1;&#13;&#19;!&#18;&#13;&#21;&#25;
      </p>
      <p>&#6;&#7;&#8;&#9;&#10;&#1;&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#18;&#19;&#20;&#15;&#9;&#7;&#9;&#8;&#12;&#13;&#19;&#14;&#17;&#21;&#18;&#22;&#1;&#15;&#21;&#21;&#18;&#23;&#19;&#7;&#1;&#18;&#12;&#24;&#25;&#12;&#1;&#4;&#26;&#27;&#3;&#0;&#5;&#0;&#2;&#3;&#28;&#29;&#30;&#2;&#4;&#28;&#0;&#0;&#4;&#31; &#1;&#13;&#19;!&#18;&#13;&#21;&#25; &#3;&#1;&#3;
      </p>
      <p>&quot;#$%&quot;&amp;'
      %()*(+&quot;,+-+./01232415674.522.89+
      :;&lt;)+&quot;=+&gt;?@+-+A?B+41C+.312
      </p>
      <p>D*@*(
      </p>
      <p>E&#15;&#9;&#7;F&#8;&#12;&#13;&#19;&#14;G
      </p>
      <p>&#0;&#5;&#3;GH&#15;&#12;&#24;&#25;&#19;GF&#7;&#12;&#25;&#25;&#7;G
      </p>
      <p>F&#23;&#13;&#7;&#25;G&#4;&#5;&#3;G
      </p>
      <p>F&#15;&#19;&#7;&#15;G&#26;&#15;&#12;&#11;&#15;&#12;&#15;IGJKG&#29;&#2;&#3;&#5;&#3;G
      </p>
      <p>LF
      </p>
      <p>&#18;&#12;&#24;&#25;&#12;&#9;M&#20;&#15;&#9;&#7;&#9;&#8;&#12;&#13;&#19;&#14;&#17;&#21;&#18;&#22;G
      </p>
      <p>NKOGP&#23;&#22;&#11;&#25;&#12;G&#10;GQL&#0;&#4; &#5;&#3;&#4;&#4;&#31;&#5;
      </p>
      <p>:(R)?ST+D?UUR(T+
      </p>
      <p>&#6;&#7;&#8;&#10;&#1;VVV&#17;&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#21;&#18;&#22;&#1;G
      </p>
      <p>&#9;&#23;&#8;&#8;&#18;&#12;&#7;M&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#21;&#18;&#22;
      </p>
      <p>/?W*(
      </p>
      <p>XYG!&#15;&#19;G&#24;&#25;&#12;GZ&#25;&#25;&#12;&#24;G
      </p>
      <p>[&#25;G&#26;&#13;&#7;&#22;&#15;&#19;&#15;&#14;&#25;&#12;G
      </p>
      <p>G
      </p>
      <p>P&#25;&#7;&#6;&#25;&#12;\&#15;&#19;&#24;&#9;
      etc...etc...
      Show
      I get a lot of msgs in the log like: WARNING: No Unicode mapping for 7 (7) in font null Oct 17, 2020 5:00:23 PM org.apache.pdfbox.pdmodel.font.PDSimpleFont toUnicode WARNING: No Unicode mapping for 8 (8) in font null Oct 17, 2020 5:00:23 PM org.apache.pdfbox.pdmodel.font.PDSimpleFont toUnicode The extracted document shows like this: <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" " http://www.w3.org/TR/html4/loose.dtd "> <html><head><title> https://2brightsparks.onfastspring.com/...unt/order/2BR180831-9532-88246/invoice&lt;/title > <meta http-equiv="Content-Type" content="text/html; charset="UTF-8"> </head> <body> <div style="page-break-before:always; page-break-after:always"><div><p>&#0;&#1;&#2;&#3;&#1;&#4;&#5;&#3;&#0; &#6;&#7;&#8;&#9;&#10;&#1;&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#18;&#19;&#20;&#15;&#9;&#7;&#9;&#8;&#12;&#13;&#19;&#14;&#17;&#21;&#18;&#22;&#1;&#15;&#21;&#21;&#18;&#23;&#19;&#7;&#1;&#18;&#12;&#24;&#25;&#12;&#1;&#4;&#26;&#27;&#3;&#0;&#5;&#0;&#2;&#3;&#28;&#29;&#30;&#2;&#4;&#28;&#0;&#0;&#4;&#31; &#1;&#13;&#19;!&#18;&#13;&#21;&#25; </p> <p>&#6;&#7;&#8;&#9;&#10;&#1;&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#18;&#19;&#20;&#15;&#9;&#7;&#9;&#8;&#12;&#13;&#19;&#14;&#17;&#21;&#18;&#22;&#1;&#15;&#21;&#21;&#18;&#23;&#19;&#7;&#1;&#18;&#12;&#24;&#25;&#12;&#1;&#4;&#26;&#27;&#3;&#0;&#5;&#0;&#2;&#3;&#28;&#29;&#30;&#2;&#4;&#28;&#0;&#0;&#4;&#31; &#1;&#13;&#19;!&#18;&#13;&#21;&#25; &#3;&#1;&#3; </p> <p>&quot;#$%&quot;&amp;' %()*(+&quot;,+-+./01232415674.522.89+ :;&lt;)+&quot;=+&gt;?@+-+A?B+41C+.312 </p> <p>D*@*( </p> <p>E&#15;&#9;&#7;F&#8;&#12;&#13;&#19;&#14;G </p> <p>&#0;&#5;&#3;GH&#15;&#12;&#24;&#25;&#19;GF&#7;&#12;&#25;&#25;&#7;G </p> <p>F&#23;&#13;&#7;&#25;G&#4;&#5;&#3;G </p> <p>F&#15;&#19;&#7;&#15;G&#26;&#15;&#12;&#11;&#15;&#12;&#15;IGJKG&#29;&#2;&#3;&#5;&#3;G </p> <p>LF </p> <p>&#18;&#12;&#24;&#25;&#12;&#9;M&#20;&#15;&#9;&#7;&#9;&#8;&#12;&#13;&#19;&#14;&#17;&#21;&#18;&#22;G </p> <p>NKOGP&#23;&#22;&#11;&#25;&#12;G&#10;GQL&#0;&#4; &#5;&#3;&#4;&#4;&#31;&#5; </p> <p>:(R)?ST+D?UUR(T+ </p> <p>&#6;&#7;&#8;&#10;&#1;VVV&#17;&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#21;&#18;&#22;&#1;G </p> <p>&#9;&#23;&#8;&#8;&#18;&#12;&#7;M&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#21;&#18;&#22; </p> <p>/?W*( </p> <p>XYG!&#15;&#19;G&#24;&#25;&#12;GZ&#25;&#25;&#12;&#24;G </p> <p>[&#25;G&#26;&#13;&#7;&#22;&#15;&#19;&#15;&#14;&#25;&#12;G </p> <p>G </p> <p>P&#25;&#7;&#6;&#25;&#12;\&#15;&#19;&#24;&#9; etc...etc...

    Description

      I copy the text from the original bug (PDFBOX-1107). I experience the same issue. 
      I have quite a few of these documents, but most are classified. I attached a non-classified one.

      I was hoping that the recent version solved this issue, but it doesn't.

       

      Original text from 1107:

      Opening the PDF via PDFReader 1.6 + 1.7 SNAPSHOT results in an unreadable page. All other pdf viewers I tried have correctly displayed the file.
      The only related log message shown was

      25.08.2011 11:59:41 org.apache.pdfbox.util.PDFStreamEngine processOperator
      INFO: unsupported/disabled operation: EI

      which is probably unrelated. My guess its the font they used (see screenshot) however if the font is unknown or problematic, shouldn't pdfreader use a default font or something? Maybe I am wrong anyway 

      Attachments

        1. 2brightsparks.onfastspring.com - invoice.pdf
          56 kB
          Peter van der Weerd
        2. Clipboard01.png
          34 kB
          Tilman Hausherr

        Activity

          This comment will be Viewable by All Users Viewable by All Users
          Cancel

          People

            Unassigned Unassigned
            pweerd Peter van der Weerd
            Votes:
            0 Vote for this issue
            Watchers:
            4 Start watching this issue

            Dates

              Created:
              Updated:
              Resolved:

              Slack

                Issue deployment