mrjob

Software skärmdump:
mrjob
Mjukvaruinformation:
Version: 0.4
Ladda upp dagen: 20 Feb 15
Utvecklare: David Marin
Licens: Gratis
Popularitet: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob är en Python-modul som hjälper dig att skriva och köra Hadoop Streaming jobb.
mrjob stöder fullt Amazons Elastic MapReduce (EMR) tjänst, vilket gör att du kan köpa tid på en Hadoop-kluster på timbasis. Den fungerar även med din egen Hadoop-kluster.
Installation:
Python setup.py installera
Konfigurera EMR på Amazon
& Nbsp; * skapar en Amazon Web Services konto: http://aws.amazon.com/
& Nbsp; * registrera dig för Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Få tillgång och hemliga nycklar (gå till http://aws.amazon.com/account/ och klicka på "säkerhetsreferenser") och ställ in miljövariablerna $ AWS_ACCESS_KEY_ID och $ AWS_SECRET_ACCESS_KEY enlighet

Prova det!

# Lokalt
Python mrjob / examples / mr_word_freq_count.py README.md> räknas
# På EMR
Python mrjob / examples / mr_word_freq_count.py README.md -r EMR> räknas
# På din Hadoop-kluster
Python mrjob / exempel / mr_word_freq_count.py README.md -r Hadoop> räknas
Advanced Configuration
För att köra i andra AWS regioner, ladda upp din källkodsträd, kör make, och använda andra avancerade mrjob funktioner, måste du ställa in mrjob.conf. mrjob ser för dess conf i:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf någonstans i din $ PYTHON
& Nbsp; * /etc/mrjob.conf
Se mrjob.conf.example för mer information

Funktioner :.

  • Kör jobb på EMR, din egen Hadoop-kluster, eller lokalt (för test).
  • Skriv flerstegsjobb (en karta-minska steget matas in i nästa)
  • Duplicera din produktionsmiljö inne Hadoop
  • Ladda upp din källkodsträdet och lägga den i ditt jobb är $ PYTHON
  • Kör make och andra installationsskript
  • Ange miljövariabler (t ex $ TZ)
  • Lätt att installera python paket från tarbollar (EMR endast)
  • Inställningar transparent av mrjob.conf konfigurationsfil
  • tolka felloggar automatiskt från EMR
  • SSH-tunnel till Hadoop jobb tracker på EMR
  • Minimal installation
  • För att köra på EMR, ställ $ AWS_ACCESS_KEY_ID och $ AWS_SECRET_ACCESS_KEY
  • Om du vill köra på din Hadoop-kluster, ställ $ HADOOP_HOME

Krav :

  • Python

Liknande mjukvara

MPICH
MPICH

11 May 15

ThinLinc
ThinLinc

20 Feb 15

Annan programvara för utvecklare David Marin

doloop
doloop

11 May 15

Kommentarer till mrjob

Kommentarer hittades inte
Kommentar
Slå på bilder!