DataCleaner

Software skärmdump:
DataCleaner
Mjukvaruinformation:
Version: 4.0.9
Ladda upp dagen: 11 Apr 16
Utvecklare: -
Licens: Gratis
Popularitet: 17

Rating: nan/5 (Total Votes: 0)

DataCleaner är en öppen källkod och helt gratis lösning för organisationer och företag som vill öka och mäta kvaliteten på sina uppgifter.

Med DataCleaner, kommer användarna att kunna profilera, jämföra, validera data mot affärsregler och övervaka utvecklingen av dessa mätningar över tiden.

Bland dess funktioner, kan vi nämna övervakningsdata, uppgifter profilering och DQ analys, data rensning och anrikning, upptäcka och slå samman dubbletter, kunddatakvalitet, samt supersnabb ETLightweight (Extract-Transform-Load).

Om du vill veta mer om DataCleaner funktioner och möjligheter, liksom hur man arbetar med det hänvisas till http://eobjects.dk/docs

What är nytt i den här versionen:

  • Förbättringar och nya funktioner:
  • Vi har gjort det möjligt att skapa och släppa tabeller via skrivbordet UI av DataCleaner. Observera att termen & quot; bord & quot; här faktiskt täcker mer än bara relationsdatabastabeller. Den innehåller också Ark i MS Excel datalager, samlingar i MongoDB, dokumenttyper i CouchDB och ElasticSearch och så vidare ... I princip alla datalagring typer som stöder skriv-operationer förutom single-table datalager som CSV datalager, den här funktionen! Funktionaliteten exponeras via:
  • & quot; Skapa tabellen & quot; aktiveras via högerklicksmenyn av scheman i trädet på vänster sida av programmet.
  • & quot; Skapa tabellen & quot; aktiveras också via bordsväljaringångar i komponenter såsom Infoga till bord, uppslags och uppdatera tabellen.
  • & quot; Tappa bord & quot; aktiveras via högerklicksmenyn tabeller i trädet på vänster sida av programmet.
  • Vi har lagt till (tillval) förmåga att specificera din Salesforce.com webbtjänst Endpoint URL. Detta gör det möjligt att använda DataCleaner att ansluta till sandbox miljöer Salesforce.com samt till dina egna endpoints.
  • ElasticSearch stöd har förbättrats, vilket gör att anpassade avbildningar samt återanvända ElasticSearch Datastore definitioner nu även för att söka och indexering.
  • Provtagningen poster och val av potentiella dubbletter i Duplicera funktion upptäckt har förbättrats, vilket leder till snabbare konfiguration eftersom de beslut som fattas under träningspasset är mer representativ.
  • Duplicate upptäckt modell filformat har uppdaterats som har tagit bort behovet av en separat "referens" fil för att spara tidigare beslut utbildning. Kompatibilitet med det gamla formatet har behållits, men genom att använda det nya formatet lägger många fördelar för användarupplevelsen.
  • Buggfixar:
  • En tråd svält fråga fastställdes i DataCleaner monitor. Effekten av denna fråga var bra, men det hände bara i sällsynta och mycket anpassade fall. Om anpassade lyssnare objekt på DataCleaner monitor skulle kasta ett fel, skulle det resultera i en resurs aldrig frigörs och ta upp en tråd från Quartz-schemaläggning pool på servern. Om detta skulle hända många gånger servern så småningom slut på trådar i denna pool.
  • Den vertikala menyn på resultatskärmen nu gör ett bra jobb att visa etiketterna på de komponenter som har resultat. Detta gör det lättare att känna igen vilka menyalternativ pekar på vilket resultat post.

Vad är nytt i version 3.5.5:

  • "Synonym lookup" transformation har nu en möjlighet att leta upp varje tecken på ingången. Detta är användbart om du gör byte av synonymer inom värdena för en lång textfält.
  • Blockering utförandet av DataCleaner jobb via bildskärmen webbtjänst för detta kan ibland misslyckas med ett fel som orsakas av blockering tråden. Det här problemet har åtgärdats.
  • En förbättring gjordes hur jobben och sekvensen av komponenter är stängda / städat upp efter utförande.
  • JNLP / Java WebStart version av DataCleaner avslöjades av en bugg i Java runtime orsakar vissa JAR-filer inte erkänns av WebStart launcher, under vissa omständigheter. Det här problemet har åtgärdats genom att göra små ändringar i dessa JAR-filer.
  • Några döda länkar i dokumentationen fastställdes.

Vad är nytt i version 3.5.4:

  • Det är nu möjligt att dölja utgångs kolumner av transformationer . Gömmer påverkar inte processflödet alls, utan helt enkelt dölja dem från användargränssnittet, och därmed potentiellt gör upplevelsen mer ren, när de interagerar med andra komponenter.
  • En ny webbtjänst har lagts till övervakningswebbapplikation, som är ett sätt att hämta status för utförandet av ett visst arbete.
  • En bugg har fastställts, vilket gör att HTML-rapport att misslyckas för vissa typer analys när inga poster hade behandlats.
  • Och 6 andra mindre Felet har ställd.

Vad är nytt i version 3.5.1:

  • Capture ändrade poster:
  • Ett nytt filter lades för att möjliggöra stegvis behandling av poster som inte har behandlats tidigare, t.ex. endast för profilering eller kopiering modifierade poster. De nya filter heter Capture bytte skivor, med hänvisning till begreppet förändring datafångst.
  • kö utförande av arbeten:
  • DataCleaner bildskärmen kommer nu kö utförandet av samma arbete, om det utlöses flera gånger. Detta säkerställer att du inte råkar köra samma jobb samtidigt, vilket kan leda till alla möjliga problem, beroende på vad jobbet gör.
  • Mindre buggfixar:
  • Flera buggfixar genomfördes.

Vad är nytt i version 3.5:

  • Flera guider finns nu tillgängliga för registrering datalager; inklusive fil-uppladdning till servern för CSV-filer, databasanslutning inträde, guidade registrering av Salesforce.com referenser och mer.
  • De jobbskapande guider har också utökats med flera förbättrade funktioner; Val av värdeöverföring och mönster hitta fält i snabbguiden analys, en helt ny guide för att skapa EasyDQ baserad kund rensning jobb och ett nytt jobb guide för bränning Pentaho Data Integration jobb (läs mer nedan).
  • Du kan nu ad hoc fråga någon datalagring direkt i webbgränssnittet. Detta gör det lätt att få snabba eller sporadiska insikter i data utan att inrätta jobb eller andra hanterade metoder för att behandla uppgifterna.
  • När jobb eller datalager skapas användaren vägleds att vidta åtgärder med den nybyggda objektet. Till exempel, kan du mycket snabbt köra ett jobb direkt efter den är byggd, eller fråga en datalager efter det är registrerat.
  • Administratörer kan nu direkt överföra jobb till förvaret, vilket är särskilt praktiskt om du vill att hand redigera XML innehållet i jobbfiler.
  • En hel del av den tekniska skräp nu göms undan till förmån för att visa enkla dialoger. Till exempel, när ett jobb utlöses en stor laddningsindikator visas, och när du är klar resultatet kommer att visas. Den avancerade loggning skärm som tidigare kan det fortfarande visas när du klickar på en länk för mer information.

Vad är nytt i version 3.1.2:

  • Vi har lagt till en webbtjänst i övervakningen ansökan om att få en (förteckning över) mätvärden. Detta gör övervakningen ännu mer användbar som en viktig infrastruktur komponent, som ett sätt att övervaka data (kvalitet) och exponera resultaten till tredje part.
  • "Tabell lookup" komponent har förbättrats genom att tillsätta gå semantik som en konfigurerbar egendom. Använda gå semantik du kan justera om du vill lookup att arbeta semantiskt som en LEFT JOIN eller en INNER JOIN.
  • De EasyDQ komponenter har uppgraderats, att lägga till ytterligare konfigurationsalternativ och ett rikare deduplicering resultat gränssnitt.
  • Prestandaförbättringar har varit ett särskilt fokus på den här versionen. Förbättringar har gjorts i motorn i DataCleaner att ytterligare utnyttja en strömmande bearbetning tillvägagångssätt i vissa hörn fall som inte täcktes tidigare.

Vad är nytt i version 3.1.1:

  • Datum och tidsrelaterade analysmöjligheter har utökats , adderande distribution analysatorer för veckonummer, månader och år. Alla analysatorer för datum och tid är nu samlade i en undermeny som kallas & quot; Datum och tid & quot; i & quot; Analysera & quot;.
  • En valfri & quot; beskrivande statistik & quot; Alternativet har lagts till Number analysatorn och datum / tid analysator. Det här alternativet lägger till ytterligare statistik för resultaten av dessa analysatorer, såsom Median, skevhet, percentiler och Kurtosis. Dessa värden är valfria eftersom deras minnesanvändning är något större än de befintliga mätvärden.
  • Linjerna i tidslinjediagram för övervakningswebbapplikation har nu små prickar i dem. Detta är särskilt användbart för diagram med få (eller tom endast en) observationer i dem -. Att peka ut exakt var de observationspunkter är
  • Frågan parser när åberopar ad hoc-frågor har också förbättrats avsevärt. Nu frågor kan innehålla DISTINCT klausuler * -wildcards, delfrågor och är feltoleranta mot text tänkbara frågor.
  • Två nya transformatorer har lagts till för att generera UUID och för att generera tidsstämplar.

Vad är nytt i version 3.1:

  • Metric formler - utarbetade Data Quality KPI:
  • Det är nu möjligt att bygga mycket mer utarbeta Data Quality nyckeltal i DataCleaner övervakning webbapplikation. Användargränssnittet gör det möjligt att skapa avancerade formler i en kalkylbladsliknande formel stil; med hjälp av variabler som samlas in av DataCleaner jobb.
  • Metric formler kan kombinera valfritt antal mätvärden, konstanter och operationer, så länge det kan uttryckas i en matematisk ekvation.
  • Till exempel - mäta graden av dubbla poster i procent av det totala antalet rekord. Eller mäta mängden produktkoder som överensstämmer med en uppsättning av flera strängmönster.
  • Ad-hoc-fråge - varje datalagring:
  • Med DataCleaner 3,1 kan du nu utföra ad hoc-frågor till någon datalagring! Frågor kan uttryckas i vanlig SQL och kommer att tillämpas på databaser samt filer, NoSQL databaser och mer, vilket ger en verkligen bra fråga mekanism för att sträcka sig in i din upptäckt och data profilering erfarenhet.
  • Alternativet frågan är också tillgängliga via en webbtjänst för övervakning av användare med administratörsroll. Fråge tillhandahålls som en HTTP-parameter eller POST kroppen, och resultatet tillhandahålls som en XHTML tabell.
  • Värde passare - en ny analys alternativ:
  • Ofta har du en klar uppfattning om vilka värden bör tillåtas och förväntas för ett visst område. I DataCleaner det har alltid varit Value Distribution analys alternativ som skulle hjälpa dig hävda dina antaganden. I DataCleaner 3,1 men har du mer exakt erbjudande - Value matcher. Denna analys alternativet kan du ange en uppsättning förväntade värden och sedan utföra en värdeöverföring som analys, särskilt för att validera och identifiera oväntade värden.
  • Kopiering, radering och hantering av jobb:
  • Hantering av jobb och resulterar i DataCleaner övervaka tillämpningen har förbättrats avsevärt. Du kan nu klicka ett jobb i Planering på bildskärmen, och hitta förvaltningsalternativ tillgängliga för operationer såsom döpa om, kopiera, radera och mer. Varje operation respekterar kopplingar till andra artefakter i bildskärmen, såsom analysresultat, scheman och mer. Detta innebär att hanteringen av övervaknings förvaret har blivit mycket enklare och mogna.
  • Hantera datakvaliteten historia:
  • Ibland du inför situationer där du faktiskt vill göra övervakning med historiska data! Det kan vara så att du har historiska soptippar eller säkerhetskopior av databaser, som du vill visa och berätta historien om. Du kan nu göra en analys av detta historiska data, ladda upp den till DataCleaner övervaka och använda en ny webbtjänst, ställa en historisk data för just den analysresultat. Detta innebär att dina tidslinjer ordentligt kommer att rita resultaten med hjälp av den avsedda datum, men med de resultat som du har samlat kanske vid en senare tidpunkt.
  • Clustered schemaläggare stöd (endast EE):
  • Schemaläggaren av DataCleaner monitor har externaliserats, så att den kan ersättas med hjälp av enkel konfiguration. I Enterprise Edition (EE) i DataCleaner ger vi en klustrad schemaläggare, som ger möjlighet att ladda balans och distribuera dina avrättningar över ett kluster av maskiner.
  • Single-signon (SSO) med CAS (EE only):
  • I Enterprise Edition (EE) i DataCleaner vi nu erbjuda en enda signon alternativ för övervaka tillämpningen. Nu DataCleaner kan vara en integrerad del av IT-infrastrukturen, också säkerhets-wise.
  • ... Och mycket mer:
  • Ovanstående är bara en sammanfattning. Mer än trettio frågor har lösts i den här versionen. Vi har löst flera förfrågningar som kommer från forum och gemenskap, och vi uppmuntrar alla att använda detta medium som ett verktyg för förändring. Vi är mycket glada över att göra utvecklingen av DataCleaner vara starkt påverkad av strömmarna i samhället.

Vad är nytt i version 3.0.3:

  • Lägger till en tjänst för att byta namn jobb i övervakningsförvaret .
  • Du kan få tillgång till detta som en vilsam webbtjänst eller interaktivt i användargränssnittet.
  • En webbtjänst lades för att ändra den historiska dagen för ett analysresultat i övervaknings förvaret.
  • webbapplikation har gjorts kompatibla med äldre JSF behållare.
  • Caching av konfigurationen i webbprogrammet förbättrades avsevärt, vilket leder till snabbare sida belastning och jobb initieringstider.

Vad är nytt i version 3.0.2:

  • När utlöser ett jobb i övervakningen webbapplikation, panelen automatiskt uppdateras varje sekund för att få den senaste tillståndet i utförandet.
  • filbaserad datalager (t.ex. CSV eller Excel-kalkylblad) med absoluta sökvägar är nu löst i övervakningswebbapplikation korrekt.
  • & quot; Välj från nyckel / värdekarta & quot; transformator stöder nu kapslade utvalda uttryck som & quot; Address.Street & quot; eller & quot; orderrader [0] .product.name & quot;.
  • Tabellen uppslagsmekanism har optimerats för prestanda, med hjälp av förberedda uttalanden när man kör mot JDBC databaser.
  • Administratörer kan nu ladda ner filbaserade datalager direkt från & quot; datalager & quot; sida.
  • Undantagshantering i övervakningswebbapplikationen har förbättrats lite, vilket gör felmeddelanden mer exakt och intuitiv.

Vad är nytt i version 3.0.1:

  • Den primära bugfix i denna release handlade om att återställa kartläggning av kolumner och särskilda uppräknings kategoriseringar. Till exempel i den nya fullständighets analysator, fann vi att efter omlastning ett jobb som sparats, kartläggningen var inte alltid korrekt.
  • Dessutom några interna förbättringar har gjorts, vilket gör det enklare att distribuera DataCleaner övervaka webbapplikation i miljöer med hjälp av Spring Framework.
  • Sist men inte minst, inställningarna visualisering i datorprogram har förbättrats genom att automatiskt ta en titt på jobbet som visualiseras och växling visas artefakter baserat på skärmstorleken och mängden av information som behövs för att visa det fint.

Vad är nytt i version 3.0:

  • Visning av tidslinjen och trender datakvalitetsmått
  • Centraliserad lagringsplats för att hantera och innehåller jobb, resultat, tidslinjer osv.
  • Schemaläggning och revision av DataCleaner jobb
  • Att tillhandahålla webbtjänster för att åberopa DataCleaner transformationer
  • Säkerhet och multi-hyresrätt
  • Varningar och meddelanden när data kvalitetsmått är ur sina förväntade komfortzoner.
  • Det finns en ny fullständighets analysator som är mycket användbar för att helt enkelt identifiera poster som har ofullständiga fält.
  • Du kan nu exportera DataCleaner resultaten till snygga HTML rapporterar att du kan ge till din chef, eller skicka till din XML-tolkare!
  • Den nya övervakningsmiljö är också nära integrerat med datorprogram. Sålunda har datorprogram nu möjlighet att publicera jobb och resultat till monitorn förvaret och användas som en interaktiv redaktör för innehåll som redan i arkivet.
  • Nytt datum orienterad transformationer är nu tillgängliga: Datumintervall filter, som låter dig delmängd dataset baserat på datumintervall, och format datum, vilket gör det möjligt att formatera ett datum med hjälp av ett datum mask
  • .
  • Regex Parser (som tidigare endast tillgänglig genom ExtensionSwap) har nu tagits i DataCleaner. Detta gör det mycket bekvämt att tolka och standardisera rika textfält med hjälp av reguljära uttryck.
  • Det finns en ny text fall transformator tillgängliga. Med denna omvandling kan du enkelt konvertera mellan stora / små bokstäver och korrekt aktivering av meningar och ord.
  • Två nya sök / ersätt transformationer har lagts till:. Vanligt sök / ersätt och Regex sök / ersätt
  • användarupplevelsen på skrivbordet ansökan har förbättrats. Vi har lagt till flera i-ansökan hjälpmeddelanden, gjorde färgerna ser ljusare och klarare och förbättrat font hantering.

Vad är nytt i version 2.5.2:

  • Apache CouchDB stöd:
  • Vi har lagt till stöd för NoSQL databasen Apache CouchDB. DataCleaner stöder både läsa från, analysera och skriva till dina couchdb instanser.
  • Uppdatera tabellen författare:
  • Efter våra tidigare ansträngningar för att få ETLightweight-stil funktioner i DataCleaner, vi har lagt till en författare som uppdaterar poster i en tabell. Du kan använda detta till exempel att infoga eller uppdatera poster baserat på särskilda villkor.
  • Liksom Infoga i tabellen författare, den nya DataCleaner Update bord författare är inte begränsad till SQL-baserade databaser, men alla datalagring typ som stöder skrivning (för närvarande relationsdatabaser, CSV-filer, Excel, MongoDB databaser och MongoDB databaser), men semantiken är desamma som med en traditionell UPDATE TABLE i SQL.
  • Drill till detaljerad information sparas i resultatfiler:
  • När du använder Spara resultatet inslag i DataCleaner 2,5, vissa användare upplevt att deras drill till detaljerad information gick förlorad. I DataCleaner 2.5.2 vi nu även framhärdar den här informationen, vilket gör dina DQ arkiv mycket mer värdefullt när man undersöker historiska händelser uppgifter.
  • Förbättrad EasyDQ felhantering:
  • De EasyDQ komponenter har förbättrats när det gäller felhantering. Om en tillfällig nätverk problemet uppstår eller annan liknande fråga medför några register för att misslyckas, kommer EasyDQ komponenter nu graciöst återhämta sig och viktigast av allt -. Ditt parti arbete kommer att råda även trots fel
  • Table kartläggning för NoSQL datalager:
  • Eftersom CouchDB och MongoDB inte tabell baserat, men har en mer dynamisk struktur ger vi två metoder för att arbeta med dem: Den standard, vilket är att låta DataCleaner autodetektera en tabellstruktur och avancerade som tillåter dig att manuellt ange önskade tabellstruktur. Tidigare avancerade alternativet var endast tillgängliga via XML-konfiguration, men nu användargränssnittet innehåller lämpliga dialogrutor för att göra detta direkt i programmet.

Vad är nytt i version 2.4.1:

  • funktionsförbättringar:
  • Batch lastning funktioner vi förbättrats avsevärt när data skrivs till databastabeller. Räkna med att se många storleksordningar förbättringar här.
  • Skriva data har mer bekvämt gjorts tillgängliga genom att lägga till alternativ till fönstermenyn.
  • Du kan nu enkelt byta namn komponenter i ett jobb genom att dubbelklicka deras flikar.
  • Javascript transformator har nu syntaxfärger, så att dina Javascripts är lättare att inspektera och modifiera.
  • Buggfixar:
  • När man läser från och skriver till samma datalager (eg. Den DataCleaner mellanlagringsområdet) vi har sett till att tabellen cache som datalager uppdateras. Tidigare några scenarier får du se en out-of-date syn på borden.
  • En potentiell dödläge när du startar programmet var löst. Detta dödläge var en följd av ett problem i JVM, men vi arbetade runt det genom att synkronisera alla samtal till den speciella API i Java.

Vad är nytt i version 2.4: (. Aka Deduplication eller Fuzzy matchning av poster)

  • Duplicera upptäckt , som är gratis att använda för upp till 500.000 värden.
  • adressvalidering uppgifter och rensning. Detta gör det möjligt att kontrollera om adresserna finns, om de är korrekt formaterade och även att föreslå ändringar i det fall du har fel.
  • validering namnsdata och rensning. Med namntjänst, inte EasyDQ inte bara formatera namn konsekvent, men också söker efter felstavningar och tolkar namnet delar.
  • E-post och validering telefon och rengöring. Dessa tjänster ger kontroll av e-post och telefondata, och se till att e-postdomäner finns, att landskoder är korrekta och mycket mer.

Vad är nytt i version 2.3:

  • International databärare:
  • Om du arbetar med internationella uppgifter, då kan du ha olika teckenuppsättningar i dina data, till exempel kinesiska eller hebreiska. Vi har lagt teckenuppsättning distributions analysator, som är en profilering alternativ som låter dig att räkna ut vilka teckenuppsättningar som används i dina data.
  • Att arbeta med data som innehåller olika teckenuppsättningar kan vara problematiskt. Med det nya transkribera transformator kan du nu transkribera strängar från olika skrivsystem till latinska bokstäver.
  • Det finns också en ny webbsändning demonstration, med fokus på den internationella datakapacitet av DataCleaner 2,3 i avsnittet dokumentationen.
  • Gruppering av analysresultat av en sekundär kolonn:
  • Pattern analysatorn är nu kunna gruppera mönster som bygger på en sekundär kolonn. Detta är användbart för analyser som:
  • Hämta mönster telefonnummer, grupperade efter land.
  • Kom mönster e användarnamn baserat på e-postdomän.
  • Något liknande har gjorts för Value Distribution Analyzer, Detta gör det möjligt för analyser såsom:
  • Är alla stadsnamn distinkt, när grupperade enligt postnummer?
  • Vad är könsfördelningen inom vissa kundtyper?
  • Förbättrade diagram:
  • Mönstret Arens resultat kan nu visas i ett diagram. Detta synliggör distribution och visar hur mycket av en & quot; lång svans & quot; mönster som finns.
  • Utgången av värdet distributions analysatorn har förbättrats i ett par områden:
  • läsbarhet diagrammet har förbättrats.
  • Det visar det totala antalet rader och distinkt räkningen över dessa rader: antalet olika värden som finns i raderna. Detta hjälper till att räkna ut hur ofta dubblerade värden existerar.
  • Om det finns tomma strängar, använder vi nyckelordet för det, så att det är lättare att känna igen dem.
  • Output:
  • Bredvid redan existerande utdataformat (CSV-filer och H2 datalager) vi lagt skriva utdata till Excel.
  • Efter att ha skrivit till en datalagring, är det nu möjligt att förhandsgranska produktionen, så att du kan kontrollera om utgången är enligt dina förväntningar.
  • Det är nu också möjligt att lägga till utgången som en ny datalagring, så att den kan användas som underlag för ett nytt jobb.
  • Andra förbättringar:
  • Dokumentation har generellt förbättrats. I synnerhet har loggning och kommandoradsgränssnitt beskrivningar har lagts till.
  • Förlängningsmekanismen har förbättrats genom modularisera flera stycken av ansökan och införa Google Guice som en allmänt tillgänglig dependency injection ram för förlängnings utvecklare.
  • Och naturligtvis vi gjorde mer än tjugo små förbättringar och buggfixar.

Vad är nytt i version 2.2:

  • Den främsta drivkraften för den här versionen har varit en berättelse om töjbarhet . Medan släppa ansökan vi simultant släppa en ny DataCleaner webbplats som har en viktig ny område: ExtensionSwap. Tanken med ExtensionSwap är att tillåta delning av tillägg till DataCleaner och installation genom att klicka på en knapp i webbläsaren!
  • DataCleaner förlängning API har förbättrats en hel del i den här versionen, som gör det möjligt att skapa egna transformatorer, analysatorer och filter. Om du känner dina tillägg kan vara av intresse för andra användare, dela den på ExtensionSwap och vi erbjuder en kanal för att du enkelt distribuera den till tusentals användare. Extension API och ExtensionSwap förklaras ytterligare i vår nya webcast demonstration för utvecklare och andra datanörd med intresse.
  • Vi är också släppa en uppsättning av första tillägg på ExtensionSwap: De HIquality Kontakter för DataCleaner förlängning som ger avancerad namn, telefon och e-post rensning, baserad på Human slutsatser av naturligt språk DQ webbtjänster. Vi är också sjöfarten en prov förlängning som kommer att tjäna som ett exempel för utvecklare som vill prova förlängning utveckling själva. Under de kommande månaderna kommer vi att se till att lägga ännu fler tillägg härrör från vår interna portfölj av verktyg som vi använder vid Human Inference kunskaps samla lag.
  • Förutom töjbarhet vi satsar också på embeddability. Vi vill kunna bädda DataCleaner lätt i andra program för att göra profilering och dataanalys möjligt överallt! Vi har skapat en ny bootstrapping API som gör att program för att bunta DataCleaner och bootstrap den med en dynamisk konfiguration eller köra den i en & quot; enda datalager läge & quot ;, där ansökan är inställd mot bara inspektera en enda datalager (typiskt definieras av ansökan som bäddar in DataCleaner). Vi har redan några riktigt intressanta fall av inbäddning DataCleaner i arbetena -. Både i andra open source-program samt kommersiella tillämpningar
  • Vi har lagt till stöd för analys SAS datamängder. Detta är något vi är väldigt stolta över som vi är, så vitt vi vet, den första stora open source program tillhandahålla sådan funktionalitet, slutligen befria en hel del av SAS-användare. Driftskompatibilitet del SAS skapades som ett separat projekt, SassyReader, så vi förväntar oss att se antagandet DataCleaner kostnadsfria öppen källkod samhällen snart också!
  • Vi har också lagt till stöd för en annan typ av datalagring: fast bredd filer. Fast bredd filer är textfiler där varje kolumn har en fast bredd. Det finns ingen separator eller citattecken, som CSV-filer, utan varje rad är lika långa och varje rad kommer att tokenized enligt en uppsättning av värde längder.
  • Ett alternativ till & quot; misslyckas på inkonsekvenser & quot; sattes till CSV-fil och fasta bredd fil datalager. Dessa flaggor lägga till ett format integritetskontroll vid användning av dessa textfil baserade datalager.
  • En bugg har fastställts, vilket orsakade CSV separator inställningarna inte att kvarhållas i användargränssnittet, när du redigerar en CSV datalagring.
  • japanska och andra tecken stöds inte i användargränssnittet. Detta & quot; bugg & quot; var en fråga om att undersöka tillgängliga teckensnitt på systemet och välja ett typsnitt som kan göra de särskilda tecken. På de flesta moderna system kommer det att finnas kapabla teckensnitt tillgängliga, men på vissa Unix / Linux grenar Det kan fortfarande finnas begränsningar.
  • Avsnittet dokumentation har uppdaterats! Ända sedan den första 2,0 frigör dokumentationen har varit långt efter, men vi har äntligen lyckats få den aktuell. Det finns fortfarande bitar som saknas i docs, men det bör definitivt vara användbar för grundläggande användning samt en referens för de flesta ämnen.
  • Application starttid förbättrades genom parallelizing konfigurations lastning och genom att fördröja initieringen av de delar av den konfiguration som inte behövs för den inledande fönstret.
  • fonetiska likheten finder analysator har tagits bort från huvudutgåvan, eftersom detta var ganska experimentell och fungerar mest som en proof of concept och förrätt till samhället för att skapa mer avancerade matchande analysatorer. Du kan nu hitta och installera den fonetiska likheten finder på ExtensionSwap.
  • Inställd eller errornous hantering jobb förbättrades och användargränssnittet svarar mer korrekt genom att inaktivera knappar och framstegsindikatorer, om ett jobb har stoppats.
  • Fast några mindre UI frågor som rör tabellen dimensionering och användning av rullningslister.

Vad är nytt i version 2.1.1:

  • Förbättringar:
  • Lade till en sökning / filtrering textfältet på listan datalager. Detta gör det möjligt att snabbt hitta din datalager om du har registrerat fler datalager än finns på skärmen.
  • Referensdata för landskoder sattes till standarddistributionen, tack går till Graham Rhind för att tillhandahålla dessa.
  • Lade till en horisontell rullningslist till data förhandsgranska fönstren av det finns mer än 10 kolumner.
  • Möjlighet att lägga ett tilläggspaket med ny funktionalitet i dialogrutan Alternativ vid körning. Mer fokus på förlängningar kommer att följa i kommande utgåvor.
  • Vi har utsatt en tidig förhandsvisning av vår Kommandoradsgränssnitt (CLI) genom att låta dig att åberopa programmet med & quot; -usage & quot; parameter som kommer att visa CLI alternativ.
  • Inkom talformatering alternativ till & quot; Konvertera till Number & quot; transformator.
  • Buggfixar:
  • Fixat ett out-of-minne fråga vid frågor bord med en hel del kolumner (150 +).
  • Fixat ett problem som orsakar & quot; Limit analys & quot; kryssrutan inte kontrolleras på rätt sätt när ett jobb öppnades åter efter att ha sparat.
  • Inte riktigt en buggfix som det var aldrig en officiell funktion, men nu stöder vi återanvändarinställningar (den userpreferences.dat fil) från tidigare versioner av DataCleaner.

Vad är nytt i version 2.1:

  • Det fanns en hel del arbete på användargränssnittet ( se media sida):
  • Vi bestämde oss för att ta bort den vänstra sidorutan innehåller miljökonfigurationsalternativ.
  • I stället alla dessa alternativ har nu flyttats till jobbet byggnad fönster så att användaren bara behöver fokusera på ett enda fönster för alla interaktioner som behövs för att bygga ett jobb.
  • Dialogrutan Välkommen / inloggning har också tagits bort till förmån för en mer diskret panel som kan dras in eller döljas från huvudfönstret.











Skärmbilder

datacleaner-315902_1_315902.png
datacleaner-315902_2_315902.png
datacleaner-315902_3_315902.png

Liknande mjukvara

Annan programvara för utvecklare -

Tatar cuisine
Tatar cuisine

11 Apr 18

quagga
quagga

11 Apr 16

Poppler
Poppler

11 Mar 16

CyanPack
CyanPack

27 Apr 16

Kommentarer till DataCleaner

Kommentarer hittades inte
Kommentar
Slå på bilder!