Uploaded image for project: 'PDFBox'
 1. PDFBox
 2. PDFBOX-5125

Slightly slanted line with right side higher than the left confuses PDFTextStripper with sortByPosition=true

  XMLWordPrintableJSON

  Details

  • Type: Bug
  • Status: Closed
  • Priority: Major
  • Resolution: Not A Bug
  • Affects Version/s: 2.0.22
  • Fix Version/s: None
  • Component/s: Text extraction
  • Labels:
   None

   Description

   The attached PDF, when run through PDFTextStripper with sortByPosition=true, yields improperly ordered text: the beginnings of lines are printed after the ends of the same lines, after a superfluous linebreak. There are also some additional erroneous linebreaks that do not result in the text reversing, like the one in "keretmegállapodásos".

   PDFBox extracts:

   lőállító eszközök szállítása és kapcsolódó szolgáltatások 2013”
   „Nyomat e
   árgyban lefolytatott központosított közbeszerzési keretmegállapodáso
   s eljárás 2. része
   t
   (Általános Multifunkciós eszközök) eredményeképpen a Beszerző és El
   adó között
   keretmegállapodás jött létre (továbbiakban: KM).

   The same PDF opened in Adobe Reader, and all the text in it copied out:

   „Nyomat előállító eszközök szállítása és kapcsolódó szolgáltatások 2013”
   tárgyban lefolytatott központosított közbeszerzési keretmegállapodásos eljárás 2. része
   (Általános Multifunkciós eszközök) eredményeképpen a Beszerző és Eladó között
   keretmegállapodás jött létre (továbbiakban: KM).

   (The word "teljesítése" is missing in both extractions due to an OCR error; that's an issue with Tesseract an unrelated to this issue.)

   In Firefox (pdf.js), we get:

   „Nyomatelőállítóeszközökszállításaés kapcsolódószolgáltatások2013”tárgybanlefolytatottközpontosítottközbeszerzésikeretmegállapodásoseljárás2. része(ÁltalánosMultifunkcióseszközök)eredményeképpena Beszerzőés Eladóközöttkeretmegállapodásjöttlétre(továbbiakban:KM).

   (The missing spaces are a well-known incompatibility between Tesseract 4.0 and pdf.js, workarounded in Tesseract 4.1, but the order of the text remains correct.)

    Attachments

    1. BB-8541-1-ocr.pdf
     71 kB
     Gábor Stefanik

     Activity

      People

      • Assignee:
       Unassigned
       Reporter:
       Googulator Gábor Stefanik
      • Votes:
       0 Vote for this issue
       Watchers:
       2 Start watching this issue

       Dates

       • Created:
        Updated:
        Resolved: