lxml är en sofistikerad, kraftfull, fri och unik Python-modul som binder biblioteken libxml2 och libxslt, vilket gör Python utvecklare att arbeta med både XML och HTML-filer insider deras Python code.An XML bearbetning librarylxml är ett XML (Extensible Markup Language ) bearbetning bibliotek skrivet i programmeringsspråket Python, särskilt utformade för att följa element API specifikationen så mycket som möjligt.
Det kan förlänga element API för att exponera specifika funktionalitet libxslt och libxml2 biblioteken, såsom Relax NG (Next-Generation), XPath, XML Schema, c14n, XSLT (Extensible Stylesheet Language), för att etc.Use lxml ringa Python kod från XSLT stylesheetsDevelopers kommer att kunna använda lxml programmet att ringa Python kod från XSLT-formatmallar och XPath-uttryck via tilläggsfunktionerna. Ett brett utbud av handledningar finns tillgängliga på projektets & rsquoen; s hemsida (se länken i slutet av artikeln).
Programvaran är öppen källkod genom design och kombinerar funktion fullständighet och hastighet av de tidigare nämnda bibliotek med enkelheten i Python & rsquo; s API (Application Programming Interface) .Getting började med lxmlIt är ganska lätt att installera lxml på en GNU / Linux-distribution med hjälp av källarkiv fördelat på Softoware och projektet & rsquoen; s officiella hemsida. Helt enkelt ladda ner källpaketet, spara den på din hemkatalog, packa upp den, öppna Terminal app och navigera till platsen för de extraherade arkivfiler (t.ex. cd /home/softoware/lxml-3.4.1).
Kör & lsquo; gör & rsquo; kommandot för att kompilera programmet, vilket bör ta ca 1-2 minuter på en modern dator. Efter en lyckad kompilering, kör & lsquo; make install & rsquo; kommando som root eller & lsquo; sudo make install & rsquo; kommandot som en privilegierad användare att installera lxml systemet wide.Supports GNU / Linux och Microsoft Windows operativsystem systemsThe programvara statsstödda på GNU / Linux och Microsoft Windows-operativsystem. Det har framgångsrikt testats på 32-bitars och 64-bitars datorer
Vad är nytt i den här versionen:.
- Funktioner tillade:
- Ny htmlfile HTML generator för att följa med den inkrementella xmlfile serialisering API. Patch av Burak Arslan.
- Buggar fast:
- lxml.sax.ElementTreeContentHandler inte initiera sin superklass.
Vad är nytt i version 3.3.1:
- Buggar fast:
- LP # 1014290: HTML-dokument analyserade med parser.feed () misslyckades med att hitta element under taggen iteration .
- LP # 1273709: Building i PyPy misslyckades på grund av saknad stöd för PyUnicode_Compare () och PyByteArray _ * () i PyPy s C-API .
- LP # 1274413: Sammanställning i MSVC misslyckades på grund av saknad & quot; stdint.h & quot; standard header-fil.
- LP # 1274118: iterparse () misslyckades med att tolka BOM prefixet filer .
Vad är nytt i version 3.0 Alpha 2:
- Funktioner läggas:
- godtar Den .iter () för element nu tag argument som & quot; {*} namn & quot; för att söka efter element med en given lokala namnet på något namnområde. Med detta tillägg, alla kombinationer av jokertecken nu fungerar som förväntat: & quot; {ns} namn & quot ;, & quot; {} namn & quot ;, & quot; {*} namn & quot ;, & quot; {ns} * & quot ;, & quot; {} * & quot; och & quot; {*} * & quot ;. Observera att & quot; namn & quot; motsvarar till & quot; {} namn & quot ;, men & quot; * & quot; är & quot; {*} * & quot ;. Samma förändring gäller .getiterator (), .itersiblings (), .iterancestors (), .iterdescendants (), .iterchildren () och .itertext () metoder, de strip_attributes (), strip_elements () och strip_tags () funktioner liksom iterparse () klass.
- C14N tillåter att man anger de inclusive prefix att bli befordrad till toppnivå under exklusiv serialisering.
- Buggar fast:
- Passing långa Unicode-strängar i fodret () parser gränssnitt kunde inte läsa hela strängen.
Vad är nytt i version 2.3.5:
- Crash när sammanslagning textnoder i element.remove ( ).
- Crash i sax / target parser vid rapportering tom doctype.
Vad är nytt i version 2.3.4:
- Crash när man bygger en nsmap (Element egendom) med tom namn URIs.
- Crash pga konkurrenstillstånd när fel (eller användarmeddelanden) inträffar under gängade XSLT bearbetning.
- XSLT sammanställning kunde ignorera kompileringsfel.
Vad är nytt i version 2.3.2:
- Funktioner läggas:
- lxml.objectify.deannotate () har en ny boolean options cleanup_namespaces att avlägsna objektifiera namnutrymmesdeklarationer (och allmänt städa upp namnutrymmesdeklarationer) efter att ta bort typanteckningar.
- lxml.objectify fick sin egen underelement () fungerar som en kopia av etree.SubElement att undvika en annars redundant import av lxml.etree på användarsidan.
- Buggar fast:
- Fast & quot; ättling & quot; bugg i cssselect en andra gång (efter en första fix i lxml 2.3.1). Den tidigare förändringen medfört en allvarlig prestanda regression för XPath baserad utvärdering av den översatta uttryck. Observera att detta bryter användningen av vissa av de genererade XPath-uttryck som XSLT lokaliserings stigar som tidigare arbetat i 2.3.1.
- Fast tolkning av vissa väljare i cssselect. Mellanrum efter kombinatorer & quot; & Gt; & quot ;, & quot; + & quot; och & quot; ~ & quot; är nu korrekt ignoreras. Tidigare är ades analyseras som en ättling combinator. Till exempel, & quot; div & gt; .foo & quot; var analyserad samma som & quot; div & gt; * .foo & quot; istället för & quot; div & gt; .foo & quot;.
Vad är nytt i version 2.3.1:
- Funktioner läggas:
- Ny möjlighet kill_tags i lxml.html.clean att avlägsna specifika taggar och deras innehåll (dvs. deras hela delträd).
- pi.get () och pi.attrib på behandlingsanvisningar för att tolka pseudo attribut från innehållet i bearbetningsinstruktioner text.
- lxml.get_include () returnerar en lista över inkluderar vägar som kan användas för att sammanställa externa C-kod mot lxml.etree. Detta särskilt krävs för statiskt länkade lxml bygger när koden behöver kompilera mot exakt samma header filversioner som lxml sig.
- Resolver.resolve_file () tar ytterligare ett alternativ close_file som konfigurerar om filen (-liknande) objektet kommer att stängas efter att ha läst eller inte. Som standard kommer filen att stängas, eftersom användaren inte förväntas hålla en hänvisning till det.
- Buggar fast:
- HTML rengöring tog inte bort 'data: ". Länkar
- html5lib parser integration använder nu den "officiella" genomförande i html5lib sig, vilket gör att det fungerar med nyare versioner av biblioteket.
- I lxml.sax kunde endElementNS () felaktigt avvisa en vanlig taggnamn när motsvarande start händelsen slutsatsen samma slätten taggnamnet att vara i standardnamnutrymmet.
- När en öppen fil liknande föremål förs in i parse () eller iterparse (), kommer tolken inte längre stänga den efter användning. Detta återgår en förändring i lxml 2.3 där alla filer skulle stängas. Det är användarens ansvar att korrekt stänga filen (-liknande) objekt, även i fall fel.
- Assertion fel i lxml.html.cleaner vid kasse toppnivå element.
- I lxml.cssselect använder xpath "A // B" (förkortning för "A / ättling-eller-själv :: nod () / B ') istället för" A / ättling :: B "för css ättling väljaren ("A B"). Detta gör några kant fall att vara konsekvent med beteendet väljaren i WebKit och Firefox, och gör fler css uttryck giltiga lokaliseringsvägar (för användning i xsl: template match).
- I lxml.html, icke-valda taggar inte längre visa sig i de insamlade formulärvärden.
- Lägga till / ta bort värden till / från en multipel väljer formulärfält väljer dem ordentligt och Avmarkerar dem.
- Andra förändringar:
- Statisk bygger kan ange hämtningskatalogen med --download-dir alternativ.
Vad är nytt i version 2.3:
- Funktioner läggas:
- När du letar efter barn, tar lxml.objectify '{} tagg "som innebär ett tomt namnområde, i motsats till den förälder namnrymden.
- Buggar fast:
- När du är klar läser från en fil liknande föremål, kallar tolken omedelbart sin .close metod ().
- När du är klar tolkning, iterparse () stänger omedelbart indatafilen.
- Arbete-around för libxml2 bugg som kan lämna HTML-tolken i ett icke-funktionellt tillstånd efter pars en severly trasig dokument (fast i libxml2 2.7.8).
- marque taggen i HTML sanering kod är namngiven korrekt tält.
- Andra förändringar:
- Vissa offentliga funktioner i Cython-nivå C-API har mer explicita typer retur.
Vad är nytt i version 2.2.8 / 2.3 Beta 1:
- Crash i nyare libxml2 versioner när rörliga element mellan dokument som hade attribut på utbytta XInclude noder.
- XMLID () funktionen saknades de valfria parser och base_url parametrar.
- Söka efter joker taggar i iterparse () bröts i Py3.
- lxml.html.open_in_browser () fungerade inte i Python 3 på grund av användningen av os.tempnam. Det tar nu en valfri "kodning" parametern.
Krav :
- Python
Kommentarer hittades inte