Apache Tika

Software skärmdump:
Apache Tika
Mjukvaruinformation:
Version: 1.4
Ladda upp dagen: 20 Feb 15
Licens: Gratis
Popularitet: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika är ett open source verktyg som syftar till att upptäcka och extrahera metadata, samt strukturerad textinnehåll från flera dokument, med hjälp av något annat än befintliga parser bibliotek.
Apache Tika stöder följande dokumentformat: Hypertext Markup Language (HTTP), XML och härledda format, Microsoft Office dokumentformat, Opendocument Format (ODF), Portable Document Format (PDF), elektronisk publikation Format (EPF), Rich Text Format (RTF ), komprimering och förpackningsformat, text / ljud / bild / videoformat, mbox-formatet, och Java-klassfiler och arkiv.
Tidigare Apache Tika var ett delprojekt av Apache Lucene mjukvarubibliotek. Nu distribueras som en fristående paket av Apache Software Foundation

Vad är nytt i den här versionen:.

  • Bort en prov HTML-fil med ett dåligt valt GPL text i det (TIKA-1129).
  • Förbättringar tika-server för att kunna producera text / html och text / xml innehåll (TIKA-1126, TIKA-1127).
  • Förbättringar gjordes till Compressor Parser att hantera g'zipped filer som kräver alternativet decompressConcatenated inställd på true (TIKA-1096).
  • Adresserad en typografisk fel som förhindrar från upptäckt av awk filer (TIKA-1081).
  • Lade till en ny slutpunkt till Tika s JAX-RS REST-server som bara upptäcker media-typ baserade på en liten del av den handling som lämnats (TIKA-1047).
  • RTF:. Beställt och oordnade listor nu heras (TIKA-1062)
  • MP3: Audio duration nu utvinns (TIKA-991)
  • Java .class filer:. Uppgraderad från ASM 3,1 till ASM 4.1 för att analysera Java bytekoder (TIKA-1053)
  • MIME-typer: Definitioner utvidgas till valfritt inkluderar Länk (URL) och UTI, tillsammans med information för flera vanliga format (TIKA-1012 / TIKA-1083)
  • Undantag när pars OLE10 inbäddade dokument, när tolkning sammanfattande information från Office-dokument, och när sparar inbäddade documennts i TikaCLI är nu inloggad istället för att avbryta utvinning (TIKA-1074)
  • MS Word: line tabell karaktär ersätts nu med newline (TIKA-1128)
  • XML: ElementMetadataHandlers kan nu eventuellt acceptera dubbletter och tomma värden (TIKA-1133)
  • .

Krav :

  • Java 2 Standard Edition Runtime Environment

Annan programvara för utvecklare The Apache Software Foundation

Apache Pig
Apache Pig

18 Jul 15

Kommentarer till Apache Tika

Kommentarer hittades inte
Kommentar
Slå på bilder!