Mjukvaruinformation:
Version: 2.6.0
Ladda upp dagen: 20 Feb 15
Licens: Shareware
Pris: 1900.00 $
Popularitet: 63
PDFTextStream projekt är en PDF text och metadata utvinning bibliotek tillgängligt för Java, Python, och .NET.
Den stödjer alla versioner av PDF-dokument specifikation, (inklusive v1.6, som används av Acrobat 7), utvinning av text kodas med dubbel-byte teckenuppsättningar (inklusive kinesiska, japanska och koreanska), dekryptering av 40-bitars och 128 bitars krypterad dokument och utvinning av alla dokument metadata som tillhandahålls av PDF-dokument (inklusive formulärdata, bokmärken och anteckningar).
Enkel integration med Jakarta Lucene ingår
Vad är nytt i den här versionen:.
- Denna version innehåller en mängd fixar görs att säkerställa PDFTextStream kan extrahera text från PDF-dokument som är avvikande till PDF-specifikationen.
- Den innehåller också en mängd olika prestandaförbättringar.
Vad är nytt i version 2.3.0:
- Inkom en .isStruckThrough () för att com. snowtide.pdf.TextUnit, indikerar huruvida ett tecken har en strykning dras genom den.
- Förbättrad PDFTextStream stöd för inbäddade teckenmappningar.
- Beräkningen av mellanslag mellan ord har fastställts för att korrekt redovisa blank som uttryckligen är kodad i käll PDF-dokument.
- Förbättrad PDFTextStream hantering av komposit kodningar innehåll, som tidigare kunde misslyckas vilket resulterar i vissa områden av PDF-innehåll som "ignoreras" under extraktion.
- Fixat en bugg i VisualOutputTarget där text från en enda rad skulle delas upp på flera rader
- Förbättrad vertikal uppriktning av text genom extraktion med hjälp VisualOutputTarget
- Förbättrad VisualOutputTarget-producerade extrakt för att eliminera falsk tomrum mellan tätt intilliggande ord
Vad är nytt i version 2.2.5:
- lägger här versionen stöd för att extrahera XFA formulärdata som XML.
- Det förbättrar avsevärt prestanda textutvinning med hjälp VisualOutputTarget. Stöd för PDF-dokument som är större än 2 GB.
- En fix för en bugg där kodningar från inbäddade Type1 teckensnitt var tidigare inte tillämpas korrekt i vissa fall.
- En fix för ett problem där nyare innehåll i uppdaterade PDF-dokument ibland ignoreras.
- En fix för ett problem där PDFDocEncoding kodade bokmärken och metadata inte avkodas korrekt.
- A .getDestinationName () metoden i com.snowtide.pdf.Bookmark.
Krav :
- Apache Lucene
Kommentarer hittades inte