reciprocal_smallest_distance är en parvis orthology algoritm som använder global sekvensinpass och maximum likelihood evolutionära avståndet mellan sekvenser att exakt upptäcker ortologer mellan genomen.
Installera från ett tarball
Ladda ner och packa upp den senaste versionen från github:
cd ~
curl -L https://github.com/downloads/todddeluca/reciprocal_smallest_distance/reciprocal_smallest_distance-VERSION.tar.gz | Tjära xvz
Installera reciprocal_smallest_distance, och se till att använda Python 2.7:
cd reciprocal_smallest_distance-VERSION
Python setup.py installera
Använda RSD att hitta Othologs
Följande exempel kommandon visar de viktigaste sätten att köra rsd_search. Varje åkallan av rsd_search kräver att ange platsen för en FASTA-formaterad sekvens fil för två genomen, kallas frågan och ämnes genom. Deras order är godtycklig, men om du använder alternativet --ids måste ids komma från fråge genomet. Du måste också ange en fil att skriva resultaten av ortologer hittats av RSD algoritmen. Formatet på utdatafilen innehåller en ortolog per rad. Varje rad innehåller söksekvensen id, med förbehåll sekvens id, och avståndet (beräknat genom codeml) mellan sekvenserna. Du kan välja att ange en fil som innehåller ids med alternativet --ids. Då rsd kommer bara att söka efter ortologer för de ids. Använda --divergence och --evalue, har du möjlighet att använda olika tröskelvärden från standardvärdena.
Få hjälp om hur du kör rsd_search, rsd_blast eller rsd_format:
rsd_search -h
rsd_blast -h
rsd_format -h
Hitta ortologer mellan alla sekvenser i frågan och ämnes genomen, med hjälp av standard divergens och eVALUE trösklar
rsd_search -q exempel / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genomet = exempel / genomen / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
Hitta ortologer med hjälp av flera icke-standard trösklar divergens och eVALUE
rsd_search -q exempel / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genomet = exempel / genomen / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.several.orthologs.txt
--de 0,2 1e-20 --de 0,5 0,00001 --de 0,8 0,1
Det är inte nödvändigt att formatera en FASTA fil för BLAST eller beräkna BLAST hits eftersom rsd_search gör det åt dig.
Men om du planerar att köra rsd_search flera gånger för samma genomen, särskilt för stora genomen, kan du spara tid genom att använda rsd_format att preformatting FASTA filer och rsd_blast att precomputing BLAST träffar. När du kör rsd_blast, se till att använda en --evalue så stor som den största eVALUE tröskeln du tänker ge till rsd_search.
Här är hur man formaterar ett par FASTA filer på plats:
rsd_format -g exempel / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
rsd_format -g exempel / genomer / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
Och här är hur man formatera FASTA filer, sätta resultaten i en annan katalog (den aktuella katalogen i det här fallet)
rsd_format -g exempel / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa -d.
rsd_format -g exempel / genomer / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa -d.
Här är hur man beräkna framåt och bakåt blast träffar (med standard eVALUE):
rsd_blast -v -q exempel / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genomet = exempel / genomen / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
--forward-hits q_s.hits --reverse-hits s_q.hits
Här är hur man beräkna framåt och bakåt blast träffar för rsd_search hjälp genom som redan har formate för blast och en icke-standard eVALUE
rsd_blast -v -q Mycoplasma_genitalium.aa
--subject-genomet = Mycobacterium_leprae.aa
--forward-hits q_s.hits --reverse-hits s_q.hits
--no-format --evalue 0,1
Hitta ortologer mellan alla sekvenser i frågan och ämnesRing med genom som redan har formate för blast
rsd_search -q Mycoplasma_genitalium.aa
--subject-genomet = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--no-format
Hitta ortologer mellan alla sekvenser i frågan och ämnesRing med hits som redan har beräknats. Lägg märke till att --no-formatet ingår, eftersom det sedan masugn hits redan beräknats genomen inte behöver formateras för blast.
rsd_search -v --query-genomet Mycoplasma_genitalium.aa
--subject-genomet = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.default.orthologs.txt
--forward-hits q_s.hits --reverse-träffar s_q.hits --no-format
Hitta ortologer för specifika sekvenser i fråge genomet. För att hitta ortologer för bara några sekvenser, med --no-blast-cache kan snabba upp beräkningen. YMMV.
rsd_search -q exempel / genomer / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genomet = exempel / genomen / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o exempel / Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--ids exempel / Mycoplasma_genitalium.aa.ids.txt --no-blast-cache
Output Format
Ortologer kan sparas i flera olika format med hjälp av --outfmt alternativet rsd_search. Standardformatet, --outfmt -1, avser --outfmt 3. Inspirerad av UniProt dat filer, en uppsättning ortologer börjar med en parametrar linje, sedan har 0 eller flera ortolog linjer, sedan har ett slut linje. De parametes är frågan genomet namn, ämne genomet namn, divergens tröskel och eVALUE tröskel. Varje ortolog är på en enda rad listar frågesekvensen id, ämnet sekvens id, och den maximala uppskattningen sannolikhet avstånd. Detta format kan representera ortologer för flera uppsättningar parametrar i en enda fil samt uppsättningar parametrar utan ortologer. Därför är det lämpligt för användning med rsd_search när du anger flera trösklar divergens och eVALUE.
Här är ett exempel som innehåller 2 parameterkombinationer, varav den ena har inga ortologer:
PA tLACJO tYEAS7 t0.2 t1e-15
OR tQ74IU0 tA6ZM40 t1.7016
OR tQ74K17 tA6ZKK5 t0.8215
//
PA tMYCGE tMYCHP t0.2 t1e-15
//
Den ursprungliga formatet RSD, --outfmt 1, tillhandahålls för bakåtkompatibilitet. Varje rad innehåller en ortolog, representerad som ämne sekvens id, frågesekvens id, och maximal uppskattning sannolikhet avstånd. Det kan bara representera en enda uppsättning av ortologer i en fil.
Exempel:
A6ZM40 tQ74IU0 t1.7016
A6ZKK5 tQ74K17 t0.8215
Också tillgängligt för bakåtkompatibilitet är ett format som används internt av Roundup (http://roundup.hms.harvard.edu/) som är som den ursprungliga RSD formatet, förutom frågesekvensen id kolumnen innan motivet sekvens id.
Exempel:
Q74IU0 tA6ZM40 t1.7016
Q74K17 tA6ZKK5 t0.8215
Krav :
- Python
- NCBI BLAST 2.2.24
- PAML 4.4
- kalign 2.04
Kommentarer hittades inte