Apache Spark

Software skärmdump:
Apache Spark
Mjukvaruinformation:
Version: 1.6.0 Uppdaterad
Ladda upp dagen: 6 Mar 16
Licens: Gratis
Popularitet: 70

Rating: nan/5 (Total Votes: 0)

Apache Spark har utformats för att förbättra behandling av hastigheter för dataanalys och manipulation program.

Det var skrivet i Java och Scala och ger funktioner som inte finns i andra system, främst eftersom de inte är vanliga eller att användas för icke-dataapplikationer bearbetning.

Spark skapades först på UC Berkeley AMP Lab och senare donerades till Apache Software Foundation

Vad är nytt i den här versionen.

  • Unified Memory Management -. Delat minne för utförande och cachning i stället för exklusiv uppdelning av regionerna
  • Parquet Performance - Förbättra Parkett skanning vid användning av plana scheman
  • .
  • Förbättrad fråge planerare för frågor som har tydliga ansamlingar -. Fråge planer olika aggregat är mer robusta när distinkta kolonner har hög kardinalitet
  • Adaptiv frågan utförande -. Initial stöd för att automatiskt välja antalet förminsknings för förenar och aggregat
  • undvika dubbla filter i datakälla API -. Vid genomförandet av en datakälla med filterpushdown, kan utvecklare nu berätta Spark SQL för att undvika dubbel utvärdera en påskjuten ned filter
  • Snabb noll säker ansluter - Fogar använder null-safe jämlikhet (& # x3c; = & # x3e;) kommer nu att utföra med hjälp av SortMergeJoin i stället för att beräkna en cartisian produkt
  • .
  • I-minne Columnar Cache Prestanda - Betydande (upp till 14x) påskynda när caching data som innehåller komplexa typer i DataFrames eller SQL
  • .
  • SQL Execution Använda Off-Heap minne - Stöd för konfigurering utförande fråga ske med hjälp av off-heap minne för att undvika GC overhead

Vad är nya i version 1.5.2:

  • Kärnan API stöder nu multi-level aggregering träd för att påskynda dyr minska verksamheten.
  • Förbättrad felrapportering har lagts till för vissa gotcha verksamhet.
  • Spark brygga beroende nu skuggad för att undvika konflikter med användarprogram.
  • Spark stödjer nu SSL-kryptering för vissa kommunikationsslutpunkter.
  • Realtime GC statistik och rekordantal har lagts till i användargränssnittet.

Vad är nya i version 1.4.0:

  • Kärnan API stöder nu multi-level aggregering träd för att påskynda dyr minska verksamheten.
  • Förbättrad felrapportering har lagts till för vissa gotcha verksamhet.
  • Spark brygga beroende nu skuggad för att undvika konflikter med användarprogram.
  • Spark stödjer nu SSL-kryptering för vissa kommunikationsslutpunkter.
  • Realtime GC statistik och rekordantal har lagts till i användargränssnittet.

Vad är nytt i version 1.2.0:

  • PySpark sorteringsoperatören stöder nu extern spill för stora datamängder .
  • PySpark stöder nu sändningsvariabler större än 2 GB och utför extern spill under slag.
  • Spark lägger ett jobb-nivå framsteg sida i Spark UI, en stabil API för framsteg rapportering och dynamisk uppdatering av utgångsmått som jobb komplett.
  • Spark har nu stöd för att läsa binära filer för bilder och andra binära format.

Vad är nytt i version 1.0.0:

  • Den här versionen utökar Spark standardbibliotek, införa en ny SQL paket (Spark SQL) som låter användare integrera SQL-frågor i befintliga Spark arbetsflöden.
  • MLlib, Spark maskininlärning bibliotek, utökas med gles vektor stöd och flera nya algoritmer.

Vad är nytt i version 0.9.1:

  • Fast hash kollision fel i extern spill
  • Fast konflikt med Spark log4j för användare som förlitar sig på andra loggnings implementationer
  • Fast Graphx saknas Spark montering burk i maven bygger
  • Fasta tysta fel på grund av att kartlägga utgångsstatus överstiger Akka ramstorleken
  • Bort Spark onödig direkt beroende av ASM
  • Borttagna mätvärden-ganglia från standard bygga på grund av LGPL licens konflikt
  • Fixat bugg i distributions tarboll som inte innehåller tändenhet burk

Vad är nytt i version 0.8.0:

  • Utveckling har flyttat till Apache Sowftware Foundation som en inkubator projekt.

Vad är nytt i version 0.7.3:

  • Python prestanda: Spark mekanism för lekande Python VM har förbättrats för att göra det snabbare när JVM har en stor hög storlek, påskynda Python API.
  • mesos fixar: JAR läggs till ditt jobb kommer nu att på klassökväg när deserializing uppgiftsresultat i mesos
  • .
  • Felanmälan. Bättre felrapportering för icke-serialiserbara undantag och alltför stora uppgift resultat
  • Exempel:. Lade till ett exempel på stateful stream-processing med updateStateByKey
  • Kropps. Spark Streaming inte längre beror på Twitter4J reporäntan, vilket bör göra det möjligt att bygga in Kina
  • Buggfixar i foldByKey, strömmande räkna, statistik metoder, dokumentation och webbgränssnittet.

Vad är nytt i version 0.7.2.

  • Scala uppdaterad version till 2.9.3
  • Flera förbättringar Bagel, inklusive prestandafixar och en konfigurerbar lagringsnivå.
  • Nya API metoder. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition och andra
  • En ny statistik rapportering gränssnitt, SparkListener, att samla in information om varje beräkningsstadiet. Uppgift längder, bytes blandas, etc
  • Flera nya exempel med hjälp av Java API, inklusive K-medel och beräknings pi.

Vad är nytt i version 0.7.0:

  • Spark 0,7 lägger till en Python-API kallas PySpark <. / li>
  • Spark jobb nu lansera en webbinstrumentpanel för att övervaka minnesanvändning för varje distribuerad dataset (RDD) i programmet.
  • Spark kan nu byggas med hjälp av Maven förutom SBT.

Vad är nytt i version 0.6.1:

  • Fast alltför aggressiv meddelande timeout som kan orsaka arbetstagare att koppla från klustret.
  • Fixat en bugg i fristående distribuera läge som inte utsätta värdnamn till schemaläggaren, påverkar HDFS ort.
  • Förbättrad återanvändning anslutning i shuffle, vilket i hög grad kan påskynda små hasar.
  • Fast några potentiella låsningar i blockhanteraren.
  • Fixade en bugg få ID för misslyckade värdar från mesos.
  • Flera EC2 script förbättringar som bättre hantering av punkt instanser.
  • Gjorde lokala IP-adress som Spark binder till anpassnings.
  • Stöd för Hadoop 2 distributioner.
  • Stöd för att lokalisera Scala på Debiandistributioner.

Vad är nytt i version 0.6.0.

  • Enklare distribution
  • Spark dokumentation har utökats med en ny snabbstartsguide, ytterligare distributions instruktioner, konfiguration guide, tuning guide, och förbättrad dokumentation Scaladoc API.
  • En ny kommunikationsansvarig med hjälp av asynkron Java NIO låter shuffle verksamhet springa snabbare, särskilt när du skickar stora mängder data eller när jobb har många uppgifter.
  • En ny Storage Manager stöder per dataset inställningar lagringsnivå (t ex om du vill behålla datamängden i minnet, deserialiseras, på disk, etc, eller ens replike över noder).
  • Förbättrad felsökning.

Annan programvara för utvecklare Apache Software Foundation

Apache OpenJPA
Apache OpenJPA

20 Jul 15

Apache OFBiz
Apache OFBiz

4 Jun 15

Apache Scout
Apache Scout

13 Apr 15

Apache Giraph
Apache Giraph

13 Apr 15

Kommentarer till Apache Spark

Kommentarer hittades inte
Kommentar
Slå på bilder!