mrjob

Software skärmdump:
mrjob
Mjukvaruinformation:
Version: 0.4
Ladda upp dagen: 20 Feb 15
Utvecklare: David Marin
Licens: Gratis
Popularitet: 66

Rating: 2.0/5 (Total Votes: 2)

mrjob är en Python-modul som hjälper dig att skriva och köra Hadoop Streaming jobb.
mrjob stöder fullt Amazons Elastic MapReduce (EMR) tjänst, vilket gör att du kan köpa tid på en Hadoop-kluster på timbasis. Den fungerar även med din egen Hadoop-kluster.
Installation:
Python setup.py installera
Konfigurera EMR på Amazon
& Nbsp; * skapar en Amazon Web Services konto: http://aws.amazon.com/
& Nbsp; * registrera dig för Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Få tillgång och hemliga nycklar (gå till http://aws.amazon.com/account/ och klicka på "säkerhetsreferenser") och ställ in miljövariablerna $ AWS_ACCESS_KEY_ID och $ AWS_SECRET_ACCESS_KEY enlighet

Prova det!

# Lokalt
Python mrjob / examples / mr_word_freq_count.py README.md> räknas
# På EMR
Python mrjob / examples / mr_word_freq_count.py README.md -r EMR> räknas
# På din Hadoop-kluster
Python mrjob / exempel / mr_word_freq_count.py README.md -r Hadoop> räknas
Advanced Configuration
För att köra i andra AWS regioner, ladda upp din källkodsträd, kör make, och använda andra avancerade mrjob funktioner, måste du ställa in mrjob.conf. mrjob ser för dess conf i:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf någonstans i din $ PYTHON
& Nbsp; * /etc/mrjob.conf
Se mrjob.conf.example för mer information

Funktioner :.

  • Kör jobb på EMR, din egen Hadoop-kluster, eller lokalt (för test).
  • Skriv flerstegsjobb (en karta-minska steget matas in i nästa)
  • Duplicera din produktionsmiljö inne Hadoop
  • Ladda upp din källkodsträdet och lägga den i ditt jobb är $ PYTHON
  • Kör make och andra installationsskript
  • Ange miljövariabler (t ex $ TZ)
  • Lätt att installera python paket från tarbollar (EMR endast)
  • Inställningar transparent av mrjob.conf konfigurationsfil
  • tolka felloggar automatiskt från EMR
  • SSH-tunnel till Hadoop jobb tracker på EMR
  • Minimal installation
  • För att köra på EMR, ställ $ AWS_ACCESS_KEY_ID och $ AWS_SECRET_ACCESS_KEY
  • Om du vill köra på din Hadoop-kluster, ställ $ HADOOP_HOME

Krav :

  • Python

Liknande mjukvara

Tentakel
Tentakel

15 Apr 15

paexec
paexec

20 Feb 15

ClusterControl
ClusterControl

3 Jun 15

Annan programvara för utvecklare David Marin

doloop
doloop

11 May 15

Kommentarer till mrjob

Kommentarer hittades inte
Kommentar
Slå på bilder!