cpdetector projektet är en liten men smart ramverk för code upptäckt.
cpdetector är en liten men smart ramverk för code upptäckt som integrerar olika strategier. Det kan användas som ett bibliotek för tredje parts programvara som har åtkomst text data över nätverket.
Den innehåller också en best practice implementering i form av en kommandorad verktyg som låter sortering och omvandla stora samlingar av dokument som grundar sig på deras code.
Tillgängliga strategier inkluderar: jchardet (utslagning, frekvensanalys, och gissa), detektion av HTML charset egendom, och detektion av XML-kodning deklarationen.
Vad är en teckentabell?
Först är en textdokumentet inget annat än sekvenser av bitar. En dator måste bestämma, hur han kan visa dessa data i form av tecken (som identifieras av datorn som tal).
En kod sida - som också är känd som charset kodning - kartor rådata av ett textdokumentet till tecken. Den ursprungliga ASCII-kod sida för exempel använder endast 7 bitar av en oktett (byte) för att avgöra det tecken som representeras vilket gör endast att kart 128 olika tecken. Förr i minnet var dyrt och datorer oftast bara hade register och bussar för 8 bitar.
När en stordator tänktes det måste avgöras, vilka tecken man bör stödja. Läkare och matematiker till exempel behövde specialtecken för ekvationer. Som ett resultat, en dator ofta levereras med en speciell code
Vad är nytt i den här versionen:.
- Denna stora bugfix versionen åtgärdar två frågor i kommandoraden batch-läge.
- Övergången till hoppa rörliga oupptäckta dokument fungerar nu igen.
- Inga försök kommer att göras för att koda oupptäckt handlingar (den senare orsakade exceptionellt programflödet).
Vad är nytt i version 1.0.8:
- är här versionen en stabilitet release och fixerar byte beställa märket upptäckt och oförenlighet med OpenJDK. Det kräver också Java 1.5 nu.
Kommentarer hittades inte