Vackra Soup projektet är en Python HTML / XML parser avsedd för snabb vändning projekt som skärm skrapning. Tre funktioner gör det kraftfullt:
Vackra Soup kommer inte kvävas om du ger det dåligt uppmärkning. Det ger en parsträd som gör ungefär lika mycket vett som originaldokumentet. Detta är oftast tillräckligt bra för att samla in de data du behöver och kör iväg.
Vackra Soup ger några enkla metoder och pythonic idiom för att navigera, söka och ändra en parsträd: en verktygslåda för att dissekera ett dokument och extrahera vad du behöver. Du behöver inte skapa en anpassad parser för varje applikation.
Vackra Soup konverterar automatiskt inkommande dokument till Unicode och utgående dokument till UTF-8. Du behöver inte tänka på kodningar, om inte dokumentet inte anger en kodning och vacker soppa kan inte automatiskt identifiera en. Sen är det bara att ange originalkodning.
Vackra Soup tolkar allt du ger den, och gör trädet traverse slå till. Du kan säga det "Hitta alla länkar", eller "Hitta alla länkar i klass externalLink", eller "Hitta alla länkar vars webbadresser matcha" foo.com ", eller" Hitta på tabellrubriken som har fått fet text, sedan ge mig att texten. "
Värdefull information som en gång var inlåst i dåligt utformade webbplatser är nu inom räckhåll. . Projekt som skulle ha tagit timmar tar bara några minuter med Beautiful Soup
Krav :
- Python
Kommentarer hittades inte