PDFTextStream

Software skärmdump:
PDFTextStream
Mjukvaruinformation:
Version: 2.6.0
Ladda upp dagen: 20 Feb 15
Licens: Shareware
Pris: 1900.00 $
Popularitet: 2

Rating: nan/5 (Total Votes: 0)

PDFTextStream projekt är en PDF text och metadata utvinning bibliotek tillgängligt för Java, Python, och .NET.
Den stödjer alla versioner av PDF-dokument specifikation, (inklusive v1.6, som används av Acrobat 7), utvinning av text kodas med dubbel-byte teckenuppsättningar (inklusive kinesiska, japanska och koreanska), dekryptering av 40-bitars och 128 bitars krypterad dokument och utvinning av alla dokument metadata som tillhandahålls av PDF-dokument (inklusive formulärdata, bokmärken och anteckningar).
Enkel integration med Jakarta Lucene ingår

Vad är nytt i den här versionen:.

  • Denna version innehåller en mängd fixar görs att säkerställa PDFTextStream kan extrahera text från PDF-dokument som är avvikande till PDF-specifikationen.
  • Den innehåller också en mängd olika prestandaförbättringar.

Vad är nytt i version 2.3.0:

  • Inkom en .isStruckThrough () för att com. snowtide.pdf.TextUnit, indikerar huruvida ett tecken har en strykning dras genom den.
  • Förbättrad PDFTextStream stöd för inbäddade teckenmappningar.
  • Beräkningen av mellanslag mellan ord har fastställts för att korrekt redovisa blank som uttryckligen är kodad i käll PDF-dokument.
  • Förbättrad PDFTextStream hantering av komposit kodningar innehåll, som tidigare kunde misslyckas vilket resulterar i vissa områden av PDF-innehåll som "ignoreras" under extraktion.
  • Fixat en bugg i VisualOutputTarget där text från en enda rad skulle delas upp på flera rader
  • Förbättrad vertikal uppriktning av text genom extraktion med hjälp VisualOutputTarget
  • Förbättrad VisualOutputTarget-producerade extrakt för att eliminera falsk tomrum mellan tätt intilliggande ord

Vad är nytt i version 2.2.5:

  • lägger här versionen stöd för att extrahera XFA formulärdata som XML.
  • Det förbättrar avsevärt prestanda textutvinning med hjälp VisualOutputTarget. Stöd för PDF-dokument som är större än 2 GB.
  • En fix för en bugg där kodningar från inbäddade Type1 teckensnitt var tidigare inte tillämpas korrekt i vissa fall.
  • En fix för ett problem där nyare innehåll i uppdaterade PDF-dokument ibland ignoreras.
  • En fix för ett problem där PDFDocEncoding kodade bokmärken och metadata inte avkodas korrekt.
  • A .getDestinationName () metoden i com.snowtide.pdf.Bookmark.

Krav :

  • Apache Lucene

Kommentarer till PDFTextStream

Kommentarer hittades inte
Kommentar
Slå på bilder!