mrjob är en Python-modul som hjälper dig att skriva och köra Hadoop Streaming jobb.
mrjob stöder fullt Amazons Elastic MapReduce (EMR) tjänst, vilket gör att du kan köpa tid på en Hadoop-kluster på timbasis. Den fungerar även med din egen Hadoop-kluster.
Installation:
Python setup.py installera
Konfigurera EMR på Amazon
& Nbsp; * skapar en Amazon Web Services konto: http://aws.amazon.com/
& Nbsp; * registrera dig för Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Få tillgång och hemliga nycklar (gå till http://aws.amazon.com/account/ och klicka på "säkerhetsreferenser") och ställ in miljövariablerna $ AWS_ACCESS_KEY_ID och $ AWS_SECRET_ACCESS_KEY enlighet
Prova det!
# Lokalt
Python mrjob / examples / mr_word_freq_count.py README.md> räknas
# På EMR
Python mrjob / examples / mr_word_freq_count.py README.md -r EMR> räknas
# På din Hadoop-kluster
Python mrjob / exempel / mr_word_freq_count.py README.md -r Hadoop> räknas
Advanced Configuration
För att köra i andra AWS regioner, ladda upp din källkodsträd, kör make, och använda andra avancerade mrjob funktioner, måste du ställa in mrjob.conf. mrjob ser för dess conf i:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf någonstans i din $ PYTHON
& Nbsp; * /etc/mrjob.conf
Se mrjob.conf.example för mer information
Funktioner :.
- Kör jobb på EMR, din egen Hadoop-kluster, eller lokalt (för test).
- Skriv flerstegsjobb (en karta-minska steget matas in i nästa)
- Duplicera din produktionsmiljö inne Hadoop
- Ladda upp din källkodsträdet och lägga den i ditt jobb är $ PYTHON
- Kör make och andra installationsskript
- Ange miljövariabler (t ex $ TZ)
- Lätt att installera python paket från tarbollar (EMR endast)
- Inställningar transparent av mrjob.conf konfigurationsfil
- tolka felloggar automatiskt från EMR
- SSH-tunnel till Hadoop jobb tracker på EMR
- Minimal installation
- För att köra på EMR, ställ $ AWS_ACCESS_KEY_ID och $ AWS_SECRET_ACCESS_KEY
- Om du vill köra på din Hadoop-kluster, ställ $ HADOOP_HOME
Krav :
- Python
Kommentarer hittades inte