PDFMiner fungerar genom att först ta innehållet i en PDF-fil och konvertera det till ett mer formbara format som HTML.
Därifrån text och data extraheras och analyseras, och baseras på fördefinierade regler separeras och presenteras för användaren eller skickas till andra mer kraftfulla verktyg för dataanalys.
Om textanalys är inte vad du har för avsikt att göra, kan du enkelt konfigurera PDFMiner att helt enkelt extrahera eller bara konvertera PDF-data också.
Dess funktioner kan arbeta separat från varandra och tillåta en bredare spektrumanvändning tack vare det
Egenskaper .
- 100% Python kod, ingen C eller C ++
- tolka PDF
- Analysera PDF
- Konvertera PDF-filer till andra format
- ToC utsug
- Få bara taggade innehåll
- Stöd för ett stort antal text PDF-funktioner
- Stöd för ett stort antal typsnitt inuti PDF-filer
- Basic-kryptering (RC4) stöd
Vad är nytt i den här versionen:
- PDFDocument.initialize () metoden bort och inte längre behövs . Ett lösenord ges som ett argument för en PDFDocument konstruktör.
Vad är nytt i version 20110515:.
- API förändringar
- LTPolygon klassen döptes som LTCurve.
Vad är nytt i version 20110227:.
- buggfixar och förbättringar layout analys
Vad är nytt i version 20101226:.
- Ett par buggfixar och mindre förbättringar
Vad är nytt i version 20101017:.
- Ett par buggfixar och en mindre förbättring
Vad är nytt i version 20100424:.
- Buggfixar och små förbättringar på TOC utvinning
Krav :
- Python 2.4 upp till 3
Begränsningar .
- PDFMiner kan vara 20 gånger långsammare än C / C ++ - baserad programvara
Kommentarer hittades inte