Apache Spark har utformats för att förbättra behandling av hastigheter för dataanalys och manipulation program.
Det var skrivet i Java och Scala och ger funktioner som inte finns i andra system, främst eftersom de inte är vanliga eller att användas för icke-dataapplikationer bearbetning.
Spark skapades först på UC Berkeley AMP Lab och senare donerades till Apache Software Foundation
Vad är nytt i den här versionen.
- Unified Memory Management -. Delat minne för utförande och cachning i stället för exklusiv uppdelning av regionerna
- Parquet Performance - Förbättra Parkett skanning vid användning av plana scheman .
- Förbättrad fråge planerare för frågor som har tydliga ansamlingar -. Fråge planer olika aggregat är mer robusta när distinkta kolonner har hög kardinalitet
- Adaptiv frågan utförande -. Initial stöd för att automatiskt välja antalet förminsknings för förenar och aggregat
- undvika dubbla filter i datakälla API -. Vid genomförandet av en datakälla med filterpushdown, kan utvecklare nu berätta Spark SQL för att undvika dubbel utvärdera en påskjuten ned filter
- Snabb noll säker ansluter - Fogar använder null-safe jämlikhet (& # x3c; = & # x3e;) kommer nu att utföra med hjälp av SortMergeJoin i stället för att beräkna en cartisian produkt .
- I-minne Columnar Cache Prestanda - Betydande (upp till 14x) påskynda när caching data som innehåller komplexa typer i DataFrames eller SQL .
- SQL Execution Använda Off-Heap minne - Stöd för konfigurering utförande fråga ske med hjälp av off-heap minne för att undvika GC overhead
Vad är nya i version 1.5.2:
- Kärnan API stöder nu multi-level aggregering träd för att påskynda dyr minska verksamheten.
- Förbättrad felrapportering har lagts till för vissa gotcha verksamhet.
- Spark brygga beroende nu skuggad för att undvika konflikter med användarprogram.
- Spark stödjer nu SSL-kryptering för vissa kommunikationsslutpunkter.
- Realtime GC statistik och rekordantal har lagts till i användargränssnittet.
Vad är nya i version 1.4.0:
- Kärnan API stöder nu multi-level aggregering träd för att påskynda dyr minska verksamheten.
- Förbättrad felrapportering har lagts till för vissa gotcha verksamhet.
- Spark brygga beroende nu skuggad för att undvika konflikter med användarprogram.
- Spark stödjer nu SSL-kryptering för vissa kommunikationsslutpunkter.
- Realtime GC statistik och rekordantal har lagts till i användargränssnittet.
Vad är nytt i version 1.2.0:
- PySpark sorteringsoperatören stöder nu extern spill för stora datamängder .
- PySpark stöder nu sändningsvariabler större än 2 GB och utför extern spill under slag.
- Spark lägger ett jobb-nivå framsteg sida i Spark UI, en stabil API för framsteg rapportering och dynamisk uppdatering av utgångsmått som jobb komplett.
- Spark har nu stöd för att läsa binära filer för bilder och andra binära format.
Vad är nytt i version 1.0.0:
- Den här versionen utökar Spark standardbibliotek, införa en ny SQL paket (Spark SQL) som låter användare integrera SQL-frågor i befintliga Spark arbetsflöden.
- MLlib, Spark maskininlärning bibliotek, utökas med gles vektor stöd och flera nya algoritmer.
Vad är nytt i version 0.9.1:
- Fast hash kollision fel i extern spill
- Fast konflikt med Spark log4j för användare som förlitar sig på andra loggnings implementationer
- Fast Graphx saknas Spark montering burk i maven bygger
- Fasta tysta fel på grund av att kartlägga utgångsstatus överstiger Akka ramstorleken
- Bort Spark onödig direkt beroende av ASM
- Borttagna mätvärden-ganglia från standard bygga på grund av LGPL licens konflikt
- Fixat bugg i distributions tarboll som inte innehåller tändenhet burk
Vad är nytt i version 0.8.0:
- Utveckling har flyttat till Apache Sowftware Foundation som en inkubator projekt.
Vad är nytt i version 0.7.3:
- Python prestanda: Spark mekanism för lekande Python VM har förbättrats för att göra det snabbare när JVM har en stor hög storlek, påskynda Python API.
- mesos fixar: JAR läggs till ditt jobb kommer nu att på klassökväg när deserializing uppgiftsresultat i mesos .
- Felanmälan. Bättre felrapportering för icke-serialiserbara undantag och alltför stora uppgift resultat
- Exempel:. Lade till ett exempel på stateful stream-processing med updateStateByKey
- Kropps. Spark Streaming inte längre beror på Twitter4J reporäntan, vilket bör göra det möjligt att bygga in Kina
- Buggfixar i foldByKey, strömmande räkna, statistik metoder, dokumentation och webbgränssnittet.
Vad är nytt i version 0.7.2.
- Scala uppdaterad version till 2.9.3
- Flera förbättringar Bagel, inklusive prestandafixar och en konfigurerbar lagringsnivå.
- Nya API metoder. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition och andra
- En ny statistik rapportering gränssnitt, SparkListener, att samla in information om varje beräkningsstadiet. Uppgift längder, bytes blandas, etc
- Flera nya exempel med hjälp av Java API, inklusive K-medel och beräknings pi.
Vad är nytt i version 0.7.0:
- Spark 0,7 lägger till en Python-API kallas PySpark <. / li>
- Spark jobb nu lansera en webbinstrumentpanel för att övervaka minnesanvändning för varje distribuerad dataset (RDD) i programmet.
- Spark kan nu byggas med hjälp av Maven förutom SBT.
Vad är nytt i version 0.6.1:
- Fast alltför aggressiv meddelande timeout som kan orsaka arbetstagare att koppla från klustret.
- Fixat en bugg i fristående distribuera läge som inte utsätta värdnamn till schemaläggaren, påverkar HDFS ort.
- Förbättrad återanvändning anslutning i shuffle, vilket i hög grad kan påskynda små hasar.
- Fast några potentiella låsningar i blockhanteraren.
- Fixade en bugg få ID för misslyckade värdar från mesos.
- Flera EC2 script förbättringar som bättre hantering av punkt instanser.
- Gjorde lokala IP-adress som Spark binder till anpassnings.
- Stöd för Hadoop 2 distributioner.
- Stöd för att lokalisera Scala på Debiandistributioner.
Vad är nytt i version 0.6.0.
- Enklare distribution
- Spark dokumentation har utökats med en ny snabbstartsguide, ytterligare distributions instruktioner, konfiguration guide, tuning guide, och förbättrad dokumentation Scaladoc API.
- En ny kommunikationsansvarig med hjälp av asynkron Java NIO låter shuffle verksamhet springa snabbare, särskilt när du skickar stora mängder data eller när jobb har många uppgifter.
- En ny Storage Manager stöder per dataset inställningar lagringsnivå (t ex om du vill behålla datamängden i minnet, deserialiseras, på disk, etc, eller ens replike över noder).
- Förbättrad felsökning.
Kommentarer hittades inte