Mjukvaruinformation:
Version: 1.3.1 Uppdaterad
Ladda upp dagen: 12 May 15
Licens: Gratis
Popularitet: 195
Spark designades för att förbättra bearbetning hastigheter för dataanalys och manipulation program.
Det var skrivet i Java och Scala och ger funktioner som inte finns i andra system, främst eftersom de inte är vanliga eller att användas för icke-databehandlingstillämpningar.
Vad är nytt i den här versionen.
- Kärnan API stöder nu flera nivåer aggregering träd för att bidra till att påskynda dyr minska verksamheten
- Förbättrad felrapportering har lagts till för vissa gotcha verksamhet.
- Spark brygga beroende nu skuggad för att undvika konflikter med användarprogram.
- Spark stödjer nu SSL-kryptering för vissa kommunikationsslutpunkter.
- Realtime GC statistik och rekordantal har lagts till i UI.
Vad är nytt i version 1.3.0:
- Kärnan API stöder nu multi-level aggregering träd för att påskynda dyr minska verksamheten.
- Förbättrad felrapportering har lagts till för vissa gotcha verksamhet.
- Spark brygga beroende nu skuggad för att undvika konflikter med användarprogram.
- Spark stödjer nu SSL-kryptering för vissa kommunikationsslutpunkter.
- Realtime GC statistik och rekordantal har lagts till i UI.
Vad är nytt i version 1.2.1:
- PySpark sorteringsoperatören stöder nu extern spill för stora datamängder .
- PySpark stöder nu sändningsvariabler större än 2 GB och utför extern spill under slag.
- Spark lägger ett jobb-nivå framsteg webbplatsen på Spark UI, en stabil API för framsteg rapportering och dynamisk uppdatering av utgångsmått som jobb klar.
- Spark har nu stöd för att läsa binära filer för bilder och andra binära format.
Vad är nytt i version 1.0.0:
- Den här versionen expanderar Spark standardbibliotek, införa en ny SQL-paketet (Spark SQL) som låter användare integrera SQL-frågor i befintliga Spark arbetsflöden.
- MLlib, Spark maskininlärning bibliotek, utökas med gles vektor stöd och flera nya algoritmer.
Vad är nytt i version 0.9.1:
- Fixat hash kollision bugg i externa spill
- Fast konflikt med Spark log4j för användare som förlitar sig på andra loggnings implementationer
- Fast Graphx saknas Spark montering burk i maven bygger
- Fixat tysta fel på grund av att kartlägga utgångsstatus överstiger Akka ramstorlek
- Removed Spark onödig direkt beroende av ASM
- Borttagna statistik-ganglier från standard bygga på grund av LGPL licens konflikt
- Fixat bugg i distributions tarboll som inte innehåller tändenhet burk
Vad är nytt i version 0.8.0:
- utveckling har flyttat till Apache Sowftware Foundation som en inkubator projektet.
Vad är nytt i version 0.7.3:
- Python prestanda: Spark mekanism för lekande Python VM har förbättrats för att göra det snabbare när JVM har en stor hög storlek, påskynda Python API.
- mesos fixar: JAR läggs till ditt jobb kommer nu att på classpath när deserializing uppgiftsresultat i mesos .
- Felanmälan. Bättre felrapportering för icke-serialiserbara undantag och alltför stora uppgift resultat
- Exempel:. Inkom ett exempel på stateful stream-processing med updateStateByKey
- Kroppsform:. Spark Streaming inte längre beror på Twitter4J reporäntan, vilket bör göra det möjligt att bygga i Kina
- Buggfixar i foldByKey, streaming räkningen, statistik metoder, dokumentation och webbgränssnitt.
Vad är nytt i version 0.7.2:.
- Scala uppdaterad version till 2.9.3
- Flera förbättringar Bagel, inklusive prestandafixar och en konfigurerbar lagringsnivå.
- Nya API metoder:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition och andra
- En ny statistik rapportering gränssnitt, SparkListener, för att samla information om varje beräkningsstadiet. Uppgift längder, bytes blandas, etc
- Flera nya exempel med hjälp av Java API, inklusive K-medel och beräknings pi.
Vad är nytt i version 0.7.0:
- Spark 0,7 tillför en Python API kallas PySpark <. / li>
- Spark jobb nu lansera en webbinstrumentpanel för att övervaka minnesanvändning för varje distribuerad dataset (RDD) i programmet.
- Spark kan nu byggas med hjälp av Maven förutom SBT.
Vad är nytt i version 0.6.1:
- Fast alltför aggressiv meddelande timeout som kan orsaka arbetstagare koppla från klustret.
- Fixat en bugg i fristående distribuera läge som inte utsätta värdnamn till schemaläggare, påverkar HDFS tätort.
- Förbättrad återanvändning anslutning i shuffle, vilket i hög grad kan påskynda små hasar.
- Fast vissa potentiella låsningar i blockhanteraren.
- Fixat en bugg få ID för misslyckade värdar från mesos.
- Flera EC2 manusförbättringar, liksom bättre hantering av spot fall.
- Gjorde lokala IP-adress som Spark binder till anpassnings.
- Stöd för Hadoop 2 distributioner.
- Stöd för att lokalisera Scala på Debiandistributioner.
Vad är nytt i version 0.6.0:.
- Enklare utbyggnad
- Spark dokumentation har utökats med en ny snabbstartsguide, ytterligare distributionsinstruktioner, konfigurationsguide, tuning guide och förbättrad dokumentation Scaladoc API.
- En ny kommunikationsansvarig med hjälp av asynkron Java NIO låter shuffle verksamhet springa snabbare, särskilt när du skickar stora mängder data eller när jobb har många uppgifter.
- En ny Storage Manager stöder per dataset inställningar minnesnivå (t.ex. om att hålla dataset i minnet, deserialiseras, på disk, etc, eller ens replike över noder).
- Förbättrad felsökning.
Kommentarer hittades inte