Jericho HTML Parser

Software skärmdump:
Jericho HTML Parser
Mjukvaruinformation:
Version: 3.4
Ladda upp dagen: 10 Dec 15
Utvecklare: Martin Jericho
Licens: Gratis
Popularitet: 105

Rating: 5.0/5 (Total Votes: 1)

Det kan redigera serversidan och klientsidan taggar, medan återge ordagrant eventuell oredovisad eller ogiltig HTML.

Det ger också hög nivå HTML-formulär manipulation funktioner

Egenskaper .

  • Närvaron av felaktigt format HTML inte stör tolkning av resten av dokumentet, vilket gör biblioteket idealisk för användning med & quot; real-world & quot; HTML som kväver andra parsers.
  • ASP, JSP, PSP, PHP och Mason server taggar uttryckligen erkänts av tolken. Detta innebär att normal HTML fortfarande analyseras korrekt även om det finns server taggar inuti dem, vilket är vanligt exempelvis då dynamiskt ställa elementattribut.
  • En ny ström baserade tolkning alternativet använder StreamedSource klassen, vilket gör att minnet effektiv bearbetning av stora filer med hjälp av en händelse iterator. Detta är i grunden en STAX alternativ med möjlighet att bearbeta HTML och icke-validering XML, liksom flera andra funktioner som inte finns i andra streaming tolkare.
  • I standardformulär är det varken en händelse eller träd baserad parser, utan använder en kombination av enkel textsökning, effektiv tag erkännande och en tagg läge cache. Texten hela källdokumentet först laddas in i minnet, och då endast de relevanta segmenten sökte för de berörda tecknen i varje sökoperation.
  • Jämfört med ett träd baserad parser såsom DOM, minnet och resurskrav kan vara mycket bättre om bara små delar av dokumentet behöver tolkas eller ändras. Felaktig eller dåligt formaterad HTML kan enkelt ignoreras, till skillnad från träd baserad tolkar som måste identifiera varje nod i dokumentet från topp till botten.
  • Jämfört med en händelse baserad parser som SAX, är gränssnittet på en mycket högre nivå och mer intuitiv, och ett träd representation av dokumentelement hierarkin är lätt skapas om det behövs.
  • start- och slutpositioner i källdokumentet av alla analyserade segment är tillgängliga, vilket gör att modifiering av endast valda delar av dokumentet utan att behöva rekonstruera hela dokumentet från ett träd.
  • rad- och kolumn antal varje position i källdokumentet är lätt åtkomliga.
  • Ger ett enkelt men omfattande gränssnitt för analys och hantering av HTML-formulärkontroller, inklusive utvinning och befolkningen i initialvärden, och omvandling till skrivskyddade eller datavisningslägen. Analys av formulärkontroller även tillåter uppgifter från formulär som ska lagras och presenteras på ett lämpligt sätt.
  • Inbyggd funktionalitet för att extrahera all text från HTML-kod, lämplig för inmatning i en text sökmotor som Apache Lucene.
  • Inbyggd funktionalitet för att göra HTML-kod med enkla textformatering.
  • Inbyggd funktionalitet för att formatera HTML källkod som indrag element enligt deras djup i dokumentelement hierarkin. (Klicka här för en online demonstration)
  • Inbyggd funktionalitet till kompakt HTML-källkoden genom att ta bort allt onödigt tomt utrymme.
  • Anpassade taggtyper kan enkelt definieras och registreras för igenkänning av tolken.

Vad är nytt i den här versionen.

  • Lade Source (File) konstruktören
  • Lade OutputDocument.getSegment () metoden.
  • Lade OutputDocument.remove (int börjar int slut) metod.
  • Lade Renderer.setHRLineLength () metoden.
  • Lade RenderToText.jsp webapp prov.
  • Lade Segment.getRowColumnVector () metoden.
  • Kodning upptäckt ignorerar nu vanliga kodningar som anges i metataggar som har en kod enhetsstorlek oförenlig med den preliminära kodning.

Vad är nytt i version 3.1:

  • Buggfixar:
  • Oändlig slinga på Segment.getAllStartTags ()
  • Oändlig slinga på Segment.getAllElements ()
  • Segment.getFirst * metoder åter segment utanför begränsningssegmentet.
  • Segment.getAllElements metoder inte tillbaka alla slutna element i vissa fall.
  • Fixat dokumentation fel i Segment.getAllElements metoder.
  • Lade StreamedSource klass.
  • Ändringar som kan påverka beteendet hos befintliga program:
  • Ändrad ParseText från klass till gränssnittet.
  • Segment.getNodeIterator () returnerar nu referenser som separata noder.
  • Inkom tag sökmetoder baserade på attributvärdes reguljära uttryck.
  • Inkom tag sökmetoder baserade på HTML class-attribut.
  • Inkom statiska Source.LegacyNodeIteratorCompatabilityMode egendom tillfälligt återställa Segment.getNodeIterator () funktionalitet som i tidigare versioner.
  • Removed röding [] baserade sökmetoder i ParseText.
  • Lade CharacterReference.appendCharTo (tilläggbar) metoden.
  • Lade OutputDocument (segment) konstruktör.
  • Lade StreamedSourceCopy provprogram.

Liknande mjukvara

htmlmin
htmlmin

12 May 15

eLyXer
eLyXer

6 Jun 15

Annan programvara för utvecklare Martin Jericho

Kommentarer till Jericho HTML Parser

Kommentarer hittades inte
Kommentar
Slå på bilder!