Apache Spark

Software skärmdump:
Apache Spark
Mjukvaruinformation:
Version: 1.6.0 Uppdaterad
Ladda upp dagen: 6 Mar 16
Licens: Gratis
Popularitet: 104

Rating: 1.0/5 (Total Votes: 1)

Apache Spark har utformats för att förbättra behandling av hastigheter för dataanalys och manipulation program.

Det var skrivet i Java och Scala och ger funktioner som inte finns i andra system, främst eftersom de inte är vanliga eller att användas för icke-dataapplikationer bearbetning.

Spark skapades först på UC Berkeley AMP Lab och senare donerades till Apache Software Foundation

Vad är nytt i den här versionen.

  • Unified Memory Management -. Delat minne för utförande och cachning i stället för exklusiv uppdelning av regionerna
  • Parquet Performance - Förbättra Parkett skanning vid användning av plana scheman
  • .
  • Förbättrad fråge planerare för frågor som har tydliga ansamlingar -. Fråge planer olika aggregat är mer robusta när distinkta kolonner har hög kardinalitet
  • Adaptiv frågan utförande -. Initial stöd för att automatiskt välja antalet förminsknings för förenar och aggregat
  • undvika dubbla filter i datakälla API -. Vid genomförandet av en datakälla med filterpushdown, kan utvecklare nu berätta Spark SQL för att undvika dubbel utvärdera en påskjuten ned filter
  • Snabb noll säker ansluter - Fogar använder null-safe jämlikhet (& # x3c; = & # x3e;) kommer nu att utföra med hjälp av SortMergeJoin i stället för att beräkna en cartisian produkt
  • .
  • I-minne Columnar Cache Prestanda - Betydande (upp till 14x) påskynda när caching data som innehåller komplexa typer i DataFrames eller SQL
  • .
  • SQL Execution Använda Off-Heap minne - Stöd för konfigurering utförande fråga ske med hjälp av off-heap minne för att undvika GC overhead

Vad är nya i version 1.5.2:

  • Kärnan API stöder nu multi-level aggregering träd för att påskynda dyr minska verksamheten.
  • Förbättrad felrapportering har lagts till för vissa gotcha verksamhet.
  • Spark brygga beroende nu skuggad för att undvika konflikter med användarprogram.
  • Spark stödjer nu SSL-kryptering för vissa kommunikationsslutpunkter.
  • Realtime GC statistik och rekordantal har lagts till i användargränssnittet.

Vad är nya i version 1.4.0:

  • Kärnan API stöder nu multi-level aggregering träd för att påskynda dyr minska verksamheten.
  • Förbättrad felrapportering har lagts till för vissa gotcha verksamhet.
  • Spark brygga beroende nu skuggad för att undvika konflikter med användarprogram.
  • Spark stödjer nu SSL-kryptering för vissa kommunikationsslutpunkter.
  • Realtime GC statistik och rekordantal har lagts till i användargränssnittet.

Vad är nytt i version 1.2.0:

  • PySpark sorteringsoperatören stöder nu extern spill för stora datamängder .
  • PySpark stöder nu sändningsvariabler större än 2 GB och utför extern spill under slag.
  • Spark lägger ett jobb-nivå framsteg sida i Spark UI, en stabil API för framsteg rapportering och dynamisk uppdatering av utgångsmått som jobb komplett.
  • Spark har nu stöd för att läsa binära filer för bilder och andra binära format.

Vad är nytt i version 1.0.0:

  • Den här versionen utökar Spark standardbibliotek, införa en ny SQL paket (Spark SQL) som låter användare integrera SQL-frågor i befintliga Spark arbetsflöden.
  • MLlib, Spark maskininlärning bibliotek, utökas med gles vektor stöd och flera nya algoritmer.

Vad är nytt i version 0.9.1:

  • Fast hash kollision fel i extern spill
  • Fast konflikt med Spark log4j för användare som förlitar sig på andra loggnings implementationer
  • Fast Graphx saknas Spark montering burk i maven bygger
  • Fasta tysta fel på grund av att kartlägga utgångsstatus överstiger Akka ramstorleken
  • Bort Spark onödig direkt beroende av ASM
  • Borttagna mätvärden-ganglia från standard bygga på grund av LGPL licens konflikt
  • Fixat bugg i distributions tarboll som inte innehåller tändenhet burk

Vad är nytt i version 0.8.0:

  • Utveckling har flyttat till Apache Sowftware Foundation som en inkubator projekt.

Vad är nytt i version 0.7.3:

  • Python prestanda: Spark mekanism för lekande Python VM har förbättrats för att göra det snabbare när JVM har en stor hög storlek, påskynda Python API.
  • mesos fixar: JAR läggs till ditt jobb kommer nu att på klassökväg när deserializing uppgiftsresultat i mesos
  • .
  • Felanmälan. Bättre felrapportering för icke-serialiserbara undantag och alltför stora uppgift resultat
  • Exempel:. Lade till ett exempel på stateful stream-processing med updateStateByKey
  • Kropps. Spark Streaming inte längre beror på Twitter4J reporäntan, vilket bör göra det möjligt att bygga in Kina
  • Buggfixar i foldByKey, strömmande räkna, statistik metoder, dokumentation och webbgränssnittet.

Vad är nytt i version 0.7.2.

  • Scala uppdaterad version till 2.9.3
  • Flera förbättringar Bagel, inklusive prestandafixar och en konfigurerbar lagringsnivå.
  • Nya API metoder. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition och andra
  • En ny statistik rapportering gränssnitt, SparkListener, att samla in information om varje beräkningsstadiet. Uppgift längder, bytes blandas, etc
  • Flera nya exempel med hjälp av Java API, inklusive K-medel och beräknings pi.

Vad är nytt i version 0.7.0:

  • Spark 0,7 lägger till en Python-API kallas PySpark <. / li>
  • Spark jobb nu lansera en webbinstrumentpanel för att övervaka minnesanvändning för varje distribuerad dataset (RDD) i programmet.
  • Spark kan nu byggas med hjälp av Maven förutom SBT.

Vad är nytt i version 0.6.1:

  • Fast alltför aggressiv meddelande timeout som kan orsaka arbetstagare att koppla från klustret.
  • Fixat en bugg i fristående distribuera läge som inte utsätta värdnamn till schemaläggaren, påverkar HDFS ort.
  • Förbättrad återanvändning anslutning i shuffle, vilket i hög grad kan påskynda små hasar.
  • Fast några potentiella låsningar i blockhanteraren.
  • Fixade en bugg få ID för misslyckade värdar från mesos.
  • Flera EC2 script förbättringar som bättre hantering av punkt instanser.
  • Gjorde lokala IP-adress som Spark binder till anpassnings.
  • Stöd för Hadoop 2 distributioner.
  • Stöd för att lokalisera Scala på Debiandistributioner.

Vad är nytt i version 0.6.0.

  • Enklare distribution
  • Spark dokumentation har utökats med en ny snabbstartsguide, ytterligare distributions instruktioner, konfiguration guide, tuning guide, och förbättrad dokumentation Scaladoc API.
  • En ny kommunikationsansvarig med hjälp av asynkron Java NIO låter shuffle verksamhet springa snabbare, särskilt när du skickar stora mängder data eller när jobb har många uppgifter.
  • En ny Storage Manager stöder per dataset inställningar lagringsnivå (t ex om du vill behålla datamängden i minnet, deserialiseras, på disk, etc, eller ens replike över noder).
  • Förbättrad felsökning.

Annan programvara för utvecklare Apache Software Foundation

Apache Any23
Apache Any23

13 Apr 15

Apache Roller
Apache Roller

12 Apr 15

Apache MINA
Apache MINA

13 Apr 15

Apache Mahout
Apache Mahout

6 Mar 16

Kommentarer till Apache Spark

Kommentarer hittades inte
Kommentar
Slå på bilder!