Apache Tika

Software skärmdump:
Apache Tika
Mjukvaruinformation:
Version: 1.9 Uppdaterad
Ladda upp dagen: 20 Jul 15
Licens: Gratis
Popularitet: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Tika har utvecklats som en låg nivå verktyg för att söka innehåll inom andra filer.
Tika inte göra mycket på egen hand är en enkel bibliotek, men det kan integreras i mer kraftfulla verktyg som sökmotorer, digitala system kapitalförvaltning eller CMS för att ge en fullt fungerande i-fil söksystem.
Biblioteket kan komma bara filens header för snabb övergripande informationsfilen, eller det kan gå riktigt djupt och söka även i filen kropp för olika typer av data, i text eller binärt format.
Ett brett utbud av filtyper stöds och Tika kan också användas med andra programmeringsspråk tack vare en rad tredjeparts bindningar och omslag.

Vad är nytt i den här utgåvan :

  • Den här versionen innehåller buggfixar och nya funktioner, inklusive en ny Tesseract OCR Parser; en ny gdal Parser; mer format som stöds, och övergripande förbättringar i Tika stabilitet.

Vad är nytt i version 1.8:

  • Den här versionen innehåller buggfixar och nya funktioner, inklusive en ny Tesseract OCR-Parser; en ny gdal Parser; mer format som stöds, och övergripande förbättringar i Tika stabilitet.

Vad är nytt i version 1.7:

  • Den här versionen innehåller buggfixar och nya funktioner, inklusive en ny Tesseract OCR-Parser; en ny gdal Parser; mer format som stöds, och övergripande förbättringar i Tika stabilitet.

Vad är nytt i version 1.6:

  • Den här versionen innehåller buggfixar och nya funktioner, inklusive en ny översättning API, mer format som stöds, och övergripande förbättringar i Tika stabilitet.

Vad är nytt i version 1.5.

  • Fixat bugg i hanteringen av inbäddad fil bearbetning i PDF-filer
  • Lade SourceCodeParser att stödja java, Groovy, C ++ filer.
  • Uppdaterad Tika Server för att stödja multipart / form-data laster.
  • Uppdaterad Tika Server CXF 2.7.8.
  • Uppdaterad Tika Server att acceptera förfrågningar över joker adresser.
  • Lade till möjligheten att använda alternativa NonSequentialPDFParser.
  • Innehåll från PDF AcroForms nu utvinns.
  • Fasta ogiltiga asterisker från bakgrundsbilden i PPT.
  • Inkom testfall för att bekräfta hantering av auto-datum i PPT och PPTX.

Vad är nytt i version 1.4:

  • Removed en test HTML-fil med ett dåligt valt GPL text det.
  • Förbättringar av tika-server för att kunna producera text / html och text / xml innehåll.
  • Förbättringar har gjorts till Compressor Parser att hantera g'zipped filer som kräver alternativet decompressConcatenated inställd på true.
  • Adresserad en typografisk fel som hindrade från detektering av awk filer.

Vad är nytt i version 1.2:

  • Apache Tika 1.2 innehåller ett antal förbättringar och buggfixar.

Vad är nytt i version 1.0:

  • Apache Tika 1.0 innehåller ett antal förbättringar och buggfixar.

Vad är nytt i version 0.9.

  • Den här versionen innehåller flera viktiga buggfixar och nya funktioner

Vad är nytt i version 0.8:

  • Språk identifiering är nu dynamiskt konfigurerbar, hanteras via en konfigurationsfil laddas från klassökvägen.
  • Tika stöder nu pars Feeds genom att linda den underliggande Rom biblioteket.
  • En snabbstartsguide för Tika tolkning bidrog.
  • Ett tillvägagångssätt för VVS genom XHTML attribut tillsattes.
  • typ Media hierarki information nu beaktas när man väljer den bästa tolken för en given ingångs dokument.
  • Stöd för att analysera gemensamma vetenskapliga dataformat inklusive netCDF och HDF4 / 5 tillsattes.
  • enhetstester för Windows har rättats, så TestParsers att slutföra.

Vad är nytt i version 0.7:

  • MP3-fil tolkning förbättrades, inklusive Channel och Sample extraktion och ID3v2 stöd. Vidare, var ljud tolkning mime upptäckt också förbättrats för MIDI-format.
  • Tika inte längre beroende av X11 för sin RTF tolkning funktionalitet.
  • En trådsäker bugg i AutoDetectParser upptäcktes och åtgärdas.
  • Uppgradera till PDFBox 1.0.0. Den nya PDFBox versionen förbättrar PDF tolkning prestanda och åtgärdar ett antal textutvinning frågor.

Krav :

  • Java 6 eller högre

Liknande mjukvara

CSSOM
CSSOM

18 Apr 16

Egg.js
Egg.js

20 Jul 15

Peppy
Peppy

6 Jun 15

Apache Log4j
Apache Log4j

9 Feb 16

Annan programvara för utvecklare Apache Software Foundation

Apache OODT
Apache OODT

20 Jul 15

Apache NiFi
Apache NiFi

18 Apr 16

Kommentarer till Apache Tika

Kommentarer hittades inte
Kommentar
Slå på bilder!