Många program som hanterar ostrukturerade data kräver tillgång till innehållet i formaterade eller markerade upp dokument text. Organisationer som arkiverar dokument kräver ofta tillgång till textinnehåll för att göra handlingarna sökbara och aktivera innehållsaggregering, rapportering och utvinning av dokumentarkiv. Sök och hämtning ansökan måste också extrahera och tokenize text från olika filformat.
En standardmekanism för att komma åt och extrahera text från dokument tillhandahålls av IFilter plug-in-gränssnitt som används i Microsofts sökmotorer. Det finns några IFilter implementationer utvecklats av Microsoft och andra leverantörer som täcker en mängd olika filformat. Standarden eller tillförlitlighet och textutvinning kvaliteten varierar över flera IFilter utvecklare.
Opait Text Filter är ett litet verktyg program med ett enkelt gränssnitt för att IFilters som redan är installerade på värddatorn samt några anpassade textutvinning filter som arbetar direkt med filformat och förbättra det förvalda IFilter implementationer.
. Gränssnittet för att extrahera text från en liten klass bibliotek som kallas Opait.Filters som ingår och kan användas för att integrera textfilter i .NET-applikationer
Krav :
.NET Framework 4.5
Kommentarer hittades inte