Uploaded image for project: 'PDFBox'
  1. PDFBox
  2. PDFBOX-4992

PDF created by Bullzip PDF Printer / www.bullzip.com / Freeware Edition shows weird characters

    XMLWordPrintableJSON

    Details

    • Type: Bug
    • Status: Closed
    • Priority: Major
    • Resolution: Not A Bug
    • Affects Version/s: 2.0.21
    • Fix Version/s: None
    • Component/s: Text extraction
    • Labels:
    • Environment:
      windows
    • Docs Text:
      Hide
      I get a lot of msgs in the log like:
      WARNING: No Unicode mapping for 7 (7) in font null
      Oct 17, 2020 5:00:23 PM org.apache.pdfbox.pdmodel.font.PDSimpleFont toUnicode
      WARNING: No Unicode mapping for 8 (8) in font null
      Oct 17, 2020 5:00:23 PM org.apache.pdfbox.pdmodel.font.PDSimpleFont toUnicode


      The extracted document shows like this:
      <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
      "http://www.w3.org/TR/html4/loose.dtd">
      <html><head><title>https://2brightsparks.onfastspring.com/...unt/order/2BR180831-9532-88246/invoice&lt;/title>
      <meta http-equiv="Content-Type" content="text/html; charset="UTF-8">
      </head>
      <body>
      <div style="page-break-before:always; page-break-after:always"><div><p>&#0;&#1;&#2;&#3;&#1;&#4;&#5;&#3;&#0; &#6;&#7;&#8;&#9;&#10;&#1;&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#18;&#19;&#20;&#15;&#9;&#7;&#9;&#8;&#12;&#13;&#19;&#14;&#17;&#21;&#18;&#22;&#1;&#15;&#21;&#21;&#18;&#23;&#19;&#7;&#1;&#18;&#12;&#24;&#25;&#12;&#1;&#4;&#26;&#27;&#3;&#0;&#5;&#0;&#2;&#3;&#28;&#29;&#30;&#2;&#4;&#28;&#0;&#0;&#4;&#31; &#1;&#13;&#19;!&#18;&#13;&#21;&#25;
      </p>
      <p>&#6;&#7;&#8;&#9;&#10;&#1;&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#18;&#19;&#20;&#15;&#9;&#7;&#9;&#8;&#12;&#13;&#19;&#14;&#17;&#21;&#18;&#22;&#1;&#15;&#21;&#21;&#18;&#23;&#19;&#7;&#1;&#18;&#12;&#24;&#25;&#12;&#1;&#4;&#26;&#27;&#3;&#0;&#5;&#0;&#2;&#3;&#28;&#29;&#30;&#2;&#4;&#28;&#0;&#0;&#4;&#31; &#1;&#13;&#19;!&#18;&#13;&#21;&#25; &#3;&#1;&#3;
      </p>
      <p>&quot;#$%&quot;&amp;'
      %()*(+&quot;,+-+./01232415674.522.89+
      :;&lt;)+&quot;=+&gt;?@+-+A?B+41C+.312
      </p>
      <p>D*@*(
      </p>
      <p>E&#15;&#9;&#7;F&#8;&#12;&#13;&#19;&#14;G
      </p>
      <p>&#0;&#5;&#3;GH&#15;&#12;&#24;&#25;&#19;GF&#7;&#12;&#25;&#25;&#7;G
      </p>
      <p>F&#23;&#13;&#7;&#25;G&#4;&#5;&#3;G
      </p>
      <p>F&#15;&#19;&#7;&#15;G&#26;&#15;&#12;&#11;&#15;&#12;&#15;IGJKG&#29;&#2;&#3;&#5;&#3;G
      </p>
      <p>LF
      </p>
      <p>&#18;&#12;&#24;&#25;&#12;&#9;M&#20;&#15;&#9;&#7;&#9;&#8;&#12;&#13;&#19;&#14;&#17;&#21;&#18;&#22;G
      </p>
      <p>NKOGP&#23;&#22;&#11;&#25;&#12;G&#10;GQL&#0;&#4; &#5;&#3;&#4;&#4;&#31;&#5;
      </p>
      <p>:(R)?ST+D?UUR(T+
      </p>
      <p>&#6;&#7;&#8;&#10;&#1;VVV&#17;&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#21;&#18;&#22;&#1;G
      </p>
      <p>&#9;&#23;&#8;&#8;&#18;&#12;&#7;M&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#21;&#18;&#22;
      </p>
      <p>/?W*(
      </p>
      <p>XYG!&#15;&#19;G&#24;&#25;&#12;GZ&#25;&#25;&#12;&#24;G
      </p>
      <p>[&#25;G&#26;&#13;&#7;&#22;&#15;&#19;&#15;&#14;&#25;&#12;G
      </p>
      <p>G
      </p>
      <p>P&#25;&#7;&#6;&#25;&#12;\&#15;&#19;&#24;&#9;
      etc...etc...
      Show
      I get a lot of msgs in the log like: WARNING: No Unicode mapping for 7 (7) in font null Oct 17, 2020 5:00:23 PM org.apache.pdfbox.pdmodel.font.PDSimpleFont toUnicode WARNING: No Unicode mapping for 8 (8) in font null Oct 17, 2020 5:00:23 PM org.apache.pdfbox.pdmodel.font.PDSimpleFont toUnicode The extracted document shows like this: <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" " http://www.w3.org/TR/html4/loose.dtd "> <html><head><title> https://2brightsparks.onfastspring.com/...unt/order/2BR180831-9532-88246/invoice&lt;/title > <meta http-equiv="Content-Type" content="text/html; charset="UTF-8"> </head> <body> <div style="page-break-before:always; page-break-after:always"><div><p>&#0;&#1;&#2;&#3;&#1;&#4;&#5;&#3;&#0; &#6;&#7;&#8;&#9;&#10;&#1;&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#18;&#19;&#20;&#15;&#9;&#7;&#9;&#8;&#12;&#13;&#19;&#14;&#17;&#21;&#18;&#22;&#1;&#15;&#21;&#21;&#18;&#23;&#19;&#7;&#1;&#18;&#12;&#24;&#25;&#12;&#1;&#4;&#26;&#27;&#3;&#0;&#5;&#0;&#2;&#3;&#28;&#29;&#30;&#2;&#4;&#28;&#0;&#0;&#4;&#31; &#1;&#13;&#19;!&#18;&#13;&#21;&#25; </p> <p>&#6;&#7;&#8;&#9;&#10;&#1;&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#18;&#19;&#20;&#15;&#9;&#7;&#9;&#8;&#12;&#13;&#19;&#14;&#17;&#21;&#18;&#22;&#1;&#15;&#21;&#21;&#18;&#23;&#19;&#7;&#1;&#18;&#12;&#24;&#25;&#12;&#1;&#4;&#26;&#27;&#3;&#0;&#5;&#0;&#2;&#3;&#28;&#29;&#30;&#2;&#4;&#28;&#0;&#0;&#4;&#31; &#1;&#13;&#19;!&#18;&#13;&#21;&#25; &#3;&#1;&#3; </p> <p>&quot;#$%&quot;&amp;' %()*(+&quot;,+-+./01232415674.522.89+ :;&lt;)+&quot;=+&gt;?@+-+A?B+41C+.312 </p> <p>D*@*( </p> <p>E&#15;&#9;&#7;F&#8;&#12;&#13;&#19;&#14;G </p> <p>&#0;&#5;&#3;GH&#15;&#12;&#24;&#25;&#19;GF&#7;&#12;&#25;&#25;&#7;G </p> <p>F&#23;&#13;&#7;&#25;G&#4;&#5;&#3;G </p> <p>F&#15;&#19;&#7;&#15;G&#26;&#15;&#12;&#11;&#15;&#12;&#15;IGJKG&#29;&#2;&#3;&#5;&#3;G </p> <p>LF </p> <p>&#18;&#12;&#24;&#25;&#12;&#9;M&#20;&#15;&#9;&#7;&#9;&#8;&#12;&#13;&#19;&#14;&#17;&#21;&#18;&#22;G </p> <p>NKOGP&#23;&#22;&#11;&#25;&#12;G&#10;GQL&#0;&#4; &#5;&#3;&#4;&#4;&#31;&#5; </p> <p>:(R)?ST+D?UUR(T+ </p> <p>&#6;&#7;&#8;&#10;&#1;VVV&#17;&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#21;&#18;&#22;&#1;G </p> <p>&#9;&#23;&#8;&#8;&#18;&#12;&#7;M&#4;&#11;&#12;&#13;&#14;&#6;&#7;&#9;&#8;&#15;&#12;&#16;&#9;&#17;&#21;&#18;&#22; </p> <p>/?W*( </p> <p>XYG!&#15;&#19;G&#24;&#25;&#12;GZ&#25;&#25;&#12;&#24;G </p> <p>[&#25;G&#26;&#13;&#7;&#22;&#15;&#19;&#15;&#14;&#25;&#12;G </p> <p>G </p> <p>P&#25;&#7;&#6;&#25;&#12;\&#15;&#19;&#24;&#9; etc...etc...

      Description

      I copy the text from the original bug (PDFBOX-1107). I experience the same issue. 
      I have quite a few of these documents, but most are classified. I attached a non-classified one.

      I was hoping that the recent version solved this issue, but it doesn't.

       

      Original text from 1107:

      Opening the PDF via PDFReader 1.6 + 1.7 SNAPSHOT results in an unreadable page. All other pdf viewers I tried have correctly displayed the file.
      The only related log message shown was

      25.08.2011 11:59:41 org.apache.pdfbox.util.PDFStreamEngine processOperator
      INFO: unsupported/disabled operation: EI

      which is probably unrelated. My guess its the font they used (see screenshot) however if the font is unknown or problematic, shouldn't pdfreader use a default font or something? Maybe I am wrong anyway 

        Attachments

        1. 2brightsparks.onfastspring.com - invoice.pdf
          56 kB
          Peter van der Weerd
        2. Clipboard01.png
          34 kB
          Tilman Hausherr

          Activity

            People

            • Assignee:
              Unassigned
              Reporter:
              pweerd Peter van der Weerd
            • Votes:
              0 Vote for this issue
              Watchers:
              4 Start watching this issue

              Dates

              • Created:
                Updated:
                Resolved: