DataCleaner är en öppen källkod och helt gratis lösning för organisationer och företag som vill öka och mäta kvaliteten på sina uppgifter.
Med DataCleaner, kommer användarna att kunna profilera, jämföra, validera data mot affärsregler och övervaka utvecklingen av dessa mätningar över tid.
Bland dess funktioner kan nämnas dataövervakning, dataprofilering och DQ-analys, data rensning och anrikning, upptäcka och slå samman dubbletter, kunddata kvalitet, samt supersnabb ETLightweight (Utdrag-Transform-Load).
Om du vill veta mer om DataCleaner funktioner och möjligheter, samt hur man kan arbeta med den, hänvisas till http://eobjects.dk/docs
What är ny i den här utgåvan :
- Förbättringar och nya funktioner:
- Vi har gjort det möjligt att skapa och släppa tabeller via skrivbordet UI av DataCleaner. Observera att termen & quot; bord & quot; här faktiskt täcker mer än bara relationsdatabastabeller. Den innehåller även Ark i MS Excel datalager, samlingar i MongoDB, dokumenttyper i CouchDB och ElasticSearch och så vidare ... I princip alla datalagring typer som stöder skriv-verksamhet, utom single-table datalager såsom CSV datalager, stöder den här funktionen! Funktionaliteten exponeras via:
- & quot; Skapa bord & quot; aktiveras via högerklicksmenyn av scheman i trädet på vänster sida av programmet.
- & quot; Skapa bord & quot; aktiveras även via bords urval insatser i komponenter såsom Infoga i tabellen, tabell uppslags och uppdatera tabellen.
- & quot; Tappa bord & quot; aktiveras via högerklicksmenyn tabeller i trädet på vänster sida av programmet.
- Vi har lagt till (tillval) förmåga att ange din Salesforce.com webbtjänst Endpoint URL. Detta gör att du kan använda DataCleaner för att ansluta till sandbox miljöer Salesforce.com samt till dina egna endpoints.
- ElasticSearch stöd har förbättrats, vilket gör att anpassade avbildningar samt återanvända ElasticSearch datalagring definitioner nu även för att söka och indexering.
- Provtagningen av poster och val av potentiella dubbletter i Duplicera funktion upptäckt har förbättrats, vilket leder till snabbare konfiguration eftersom de beslut som fattas under träningspasset är mer representativ.
- Duplicate upptäckt modellen filformat har uppdaterats som har tagit bort behovet av en separat "referens" fil för att spara tidigare beslut utbildning. Kompatibilitet med det gamla formatet har behållits, men med hjälp av det nya formatet lägger många fördelar för användarupplevelsen.
- Buggfixar:
- En tråd svält fråga fastställdes i DataCleaner monitor. Effekterna av denna fråga var stor, men det hände bara i sällsynta och mycket anpassade fall. Om anpassade lyssnare objekt på DataCleaner monitor skulle kasta ett fel, skulle det resultera i en resurs aldrig frigörs och ta upp en tråd från Quartz-schemaläggning pool på servern. Om detta skulle hända många gånger servern kunde så småningom slut på trådar i denna pool.
- Den vertikala menyn på resultatskärmen nu gör ett bra jobb för att visa i märkningen av de komponenter som har resultat. Detta gör det lättare att känna igen vilka menyalternativ pekar på vilket resultat post.
Vad är nytt i version 3.5.7:
- "Synonym lookup" transformation har nu en möjlighet att leta upp alla tecken på ingången. Detta är användbart om du gör utbyte av synonymer inom värdena för en lång textfält.
- Blockering utförandet av DataCleaner arbetstillfällen genom monitorns webbtjänst för detta kan ibland misslyckas med en bugg som orsakas av blockering tråden. Det här problemet har åtgärdats.
- En förbättring gjordes i hur jobben och sekvensen av komponenter är stängda / städat upp efter avrättningen.
- JNLP / Java WebStart version av DataCleaner avslöjades av en bugg i Java runtime orsakar vissa JAR-filer inte erkänns av WebStart launcher, under vissa omständigheter. Det här problemet har åtgärdats genom att göra små ändringar i de JAR-filer.
- Några döda länkar i dokumentationen fastställdes.
Vad är nytt i version 3.5.4:
- Det är nu möjligt att dölja utgångs kolumner av transformationer . Gömmer påverkar inte processflödet alls, utan helt enkelt dölja dem från användargränssnittet, och därmed potentiellt gör upplevelsen mer ren, när de interagerar med andra komponenter.
- En ny webbtjänst har lagts till övervakningswebbapplikation, som är ett sätt att hämta status för genomförandet av ett visst jobb.
- En bugg har fastställts, vilket gör att HTML-rapport misslyckas för vissa typer analys när inga rekord hade behandlats.
- Och 6 andra mindre bug har ställd.
Vad är nytt i version 3.5.1:
- Capture ändrade poster:
- En ny filter tillsattes för att göra det möjligt stegvis behandling av poster som inte har behandlats tidigare, t.ex. endast för profilering eller kopiering modifierade poster. De nya filter heter Capture bytte skivor, med hänvisning till begreppet förändring datafångst.
- kö utförandet av jobb:
- DataCleaner bildskärmen kommer nu i kö utförandet av samma jobb, om det utlöses flera gånger. Detta säkerställer att du inte råkar köra samma jobb samtidigt, vilket kan leda till alla möjliga frågor, beroende på vad jobbet gör.
- Mindre buggfixar:
- Flera buggfixar genomfördes.
Vad är nytt i version 3.5:
- Flera guider finns nu tillgängliga för registrering datalager; inklusive fil-uppladdning till servern för CSV-filer, databasanslutning inträde, guidade registrering av Salesforce.com referenser och mer.
- De jobbskapande guider har också utökats med flera förbättrade funktioner; Val av värdeöverföring och mönster att hitta fält i snabbguiden analysen en helt ny guide för att skapa EasyDQ baserad kund rensning jobb och ett nytt jobb guide för bränning Pentaho Data Integration jobb (läs mer nedan).
- Du kan nu ad-hoc fråga någon datalagring direkt i webbgränssnittet. Detta gör det lätt att få snabba eller sporadiska insikter data utan att sätta upp jobb eller andra hanterade metoder för att behandla uppgifterna.
- När jobb eller datalager skapas användaren styrs att vidta åtgärder med den nybyggda objektet. Till exempel kan du mycket snabbt köra ett jobb direkt efter den är byggd, eller fråga en datalager när det är registrerat.
- Administratörer kan nu direkt överföra jobb till förvaret, vilket är särskilt praktiskt om du vill hand redigera XML innehållet i jobbfiler.
- En hel del av den tekniska cruft nu göms undan till förmån för att visa enkla dialoger. Till exempel, när ett jobb utlöses en stor laddningsindikator visas, och när du är klar resultatet kommer att visas. Den avancerade loggning skärm som tidigare kan det fortfarande visas när du klickar på en länk för mer information.
Vad är nytt i version 3.1.2:
- Vi har lagt till en webbtjänst i övervakningen ansökan om att få en (förteckning över) metriska värden. Detta gör övervakningen ännu mer användbar som en viktig infrastruktur komponent, som ett sätt att övervaka data (kvalitet) och exponera resultaten till tredje part.
- "Table lookup" komponent har förbättrats genom att tillsätta gå semantik som en konfigurerbar egendom. Använda gå semantik du kan justera om du vill lookup att arbeta semantiskt som en LEFT JOIN eller en INNER JOIN.
- De EasyDQ komponenter har uppgraderats, att lägga till ytterligare konfigurationsalternativ och ett rikare deduplicering resultat gränssnitt.
- Prestandaförbättringar har varit ett särskilt fokus på den här versionen. Förbättringar har gjorts när det gäller motor DataCleaner att ytterligare utnyttja en strömmande behandlings tillvägagångssätt i vissa hörn fall som inte täcktes tidigare.
Vad är nytt i version 3.1.1:
- Datum och tidsrelaterade analysmöjligheter har utökats , lägga distributions analysatorer för veckonummer, månader och år. Alla analysatorer för datum och tid är nu samlade i en undermeny som heter & quot; Datum och tid & quot; enligt & quot; Analysera & quot;.
- En valfri & quot; beskrivande statistik & quot; Alternativet har lagts till Number analysatorn och datum / analysatorer. Det här alternativet lägger till ytterligare mått på resultaten av dessa analysatorer, såsom Median, Skewness, percentiler och Kurtosis. Dessa värden är valfria eftersom deras minnesanvändning är något större än de befintliga statistik.
- De linjer i tidslinjediagram för övervakningswebbapplikation har nu små prickar i dem. Detta är särskilt användbart för diagram med få (eller tom endast en) iakttagelser i dem -. Påpeka exakt där observationspunkterna är
- Frågan parser när åberopar ad-hoc-frågor har också förbättrats avsevärt. Nu frågor kan innehålla DISTINCT klausuler, * -wildcards, delfrågor och är feltoleranta mot text tänkbara frågor.
- Två nya transformatorer har lagts till för att generera UUID och för att generera tidsstämplar.
Vad är nytt i version 3.1:
- Metric formler - utarbetade Data Quality KPI:
- Det är nu möjligt att bygga mycket mer utarbeta Data Quality nyckeltal i DataCleaner övervakning webbapplikation. Användargränssnittet tillåter dig att bygga komplexa formler i en kalkylbladsliknande formel stil; med hjälp av variabler som samlas in av DataCleaner jobb.
- Metric formler kan kombinera valfritt antal mätetal, konstanter och verksamheter, så länge den kan uttryckas i en matematisk ekvation.
- Till exempel - mäta graden av dubbla poster i procent av det totala antalet rekord. Eller mäta mängden produktkoder som överensstämmer med en uppsättning av flera strängmönster.
- Ad-hoc frågande - varje datalagring:
- Med DataCleaner 3.1 kan du nu utföra ad hoc frågor till någon datalagring! Frågor kan uttryckas i vanlig SQL och kommer att tillämpas på databaser samt filer, NoSQL databaser och mer, vilket ger en verkligen bra fråga mekanism för att sträcka sig in i din upptäckt och data profilering erfarenhet.
- Alternativet frågan är också tillgängliga via en webbtjänst för att hålla reda på användare med ADMIN roll. Fråge tillhandahålls som en HTTP-parameter eller POST kropp, och resultatet tillhandahålls som en XHTML tabell.
- Värde passare - en ny analys alternativ:
- Ofta har du en klar uppfattning om vilka värden bör tillåtas och förväntas för ett visst område. I DataCleaner det har alltid varit Value Distribution analys alternativ som skulle hjälpa dig att hävda dina antaganden. I DataCleaner 3.1 men har du mer exakt erbjudande - Value matcher. Denna analys alternativet kan du ange en uppsättning förväntade värden och sedan utföra ett värde distribution som analys, särskilt för att validera och identifiera oväntade värden.
- Kopiering, radering och hantering av jobb:
- Förvaltning av jobb och resulterar i DataCleaner övervaka tillämpningen har förbättrats avsevärt. Du kan nu klicka ett jobb i Planering på bildskärmen, och hitta hantering alternativ för operationer såsom byta namn, kopiera, ta bort och mer. Varje operation respekterar kopplingar till andra artefakter i bildskärmen, såsom analysresultat, scheman och mer. Detta innebär att hanteringen av övervaknings förvaret har blivit mycket enklare och mogna.
- Hantera datakvaliteten historia:
- Ibland du inför situationer där du faktiskt vill göra övervakning med historiska data! Det kan vara så att du har historiska soptippar eller säkerhetskopior av databaser, som du vill visa och berätta historien om. Du kan nu göra en analys av denna historiska data, ladda upp den till DataCleaner skärmen, och med hjälp av en ny webbtjänst, ställa en historisk data för just analysresultat. Detta innebär att dina tidslinjer ordentligt kommer att rita resultaten med hjälp av deras planerat datum, men med de resultat som du har samlat kanske vid en senare tidpunkt.
- Clustered schemaläggare stöd (endast EE):
- Schemaläggaren av DataCleaner monitor har externalise, så att den kan ersättas med hjälp av enkel konfiguration. I Enterprise Edition (EE) i DataCleaner, erbjuder vi en klustrad schemaläggare, som ger möjlighet att ladda balans och distribuera dina avrättningar över ett kluster av maskiner.
- Single-signon (SSO) med CAS (EE endast):
- I Enterprise Edition (EE) i DataCleaner vi nu erbjuda en enda signon alternativ för bildskärmen ansökan. Nu DataCleaner kan vara en integrerad del av din IT-infrastruktur, även säkerhetsmässigt.
- ... Och mycket mer:
- Ovanstående är bara en sammanfattning. Mer än trettio frågor har lösts i den här versionen. Vi har löst flera förfrågningar som kommer från forum och gemenskap, och vi uppmuntrar alla att använda detta medium som ett verktyg för förändring. Vi är mycket glada över att göra utvecklingen av DataCleaner vara starkt påverkad av strömmarna i samhället.
Vad är nytt i version 3.0.3:
- Lägger till en tjänst för att byta namn arbetstillfällen i övervaknings förvaret .
- Du kan få tillgång till detta som en vilsam webbtjänst eller interaktivt i användargränssnittet.
- En webbtjänst tillsattes för att ändra den historiska dagen för ett analysresultat i övervaknings förrådet.
- Webb ansökan har gjorts kompatibla med äldre JSF behållare.
- Caching av konfigurationen i webbprogrammet förbättrades avsevärt, vilket leder till snabbare sida belastning och jobb initieringstider.
Vad är nytt i version 3.0.2:
- När utlöser ett jobb i övervakningen webbapplikation, panelen automatiskt uppdateras varje sekund för att få den senaste utvecklingen av genomförandet.
- filbaserad datalager (t.ex. CSV eller Excel) med absoluta sökvägar är nu löst i övervakningswebb en korrekt ansökan.
- & quot; Välj från nyckel / värde map & quot; transformator stöder nu kapslade utvalda uttryck som & quot; Address.Street & quot; eller & quot; orderrader [0] .product.name & quot;.
- I tabellen uppslagsmekanism har optimerats för prestanda, med hjälp av förberedda uttalanden när man kör mot JDBC databaser.
- Administratörer kan nu ladda ner filbaserade datalager direkt från & quot; datalager & quot; sida.
- Undantagshantering i övervakningswebbapplikationen har förbättrats lite, vilket gör felmeddelanden mer exakt och intuitiv.
Kommentarer hittades inte