Jericho HTML Parser

Software skärmdump:
Jericho HTML Parser
Mjukvaruinformation:
Version: 3.3
Ladda upp dagen: 20 Feb 15
Utvecklare: Martin Jericho
Licens: Gratis
Popularitet: 3

Rating: nan/5 (Total Votes: 0)

Jerich HTML Parser är en öppen källkod, enkel, men ändå kraftfull bibliotek skriven helt i Java.
Den tillåter programmerare att manipulera och analysera delar av ett HTML-dokument.
Jerich HTML Parser innehåller även hög nivå HTML-formulär manipulation funktioner

Vad är nytt i den här versionen:.

  • Buggfixar:
  • [3581664] CharacterReference.decode () inte avkoda enheter som innehåller siffror - & frac12; & Frac14; & Frac34; & Sup1; & Sup2; & Sup3; & There4;
  • [3311286] SourceCompactor inte respekterar TEXTAREA
  • [3519131] Renderer utgång felaktig när konstruerad med ett Element-objekt.
  • [3538829] Renderer produktion av typsnitt dekoration på blockgränserna felaktig.
  • Segment.getAllStartTags (namn) och Segment.getFirstElement (namn) fungerar inte om argumentet innehåller versaler.
  • Slut avgränsare av en gemensam server tagg inuti en förrymd server taggen felaktigt erkänns som slut avgränsare av undgått taggen.
  • FÖRÄNDRINGAR som skulle kunna påverka BETEENDE befintliga program:
  • [3427073] Segment.getStyleURISegments () innehåller nu formatelementet innehåll och stil attributvärden.
  • [3427927] Segment.getURIAttributes () innehåller nu arkiv attribut objekt och applet element.
  • Kommentarer inte längre erkänns inne skriptelement under fullt sekventiell parse. Tidigare redovisades dessa för kompatibilitet med större webbläsare men modern webbläsare beteende har förändrats.
  • Ändrad loggnivån alla tolkningsfel från INFO till felet och loggnivån för Source.fullSequentialParse () rådgivande budskap från WARN till INFO. De tidigare nivåer gav rådgivande budskapet en högre svårighetsgrad än tolkningsfel, förhindrar loggningssystem från att gömma den rådgivande budskap samtidigt som du visar tolkningsfel. Teckenkodnings varningar oförändrat WARN nivå.
  • Ändrat beteende Renderer.renderHyperlinkURL (StartTag) metod så att relativa URL: er inte återges.
  • Ändrat beteende Renderer så att hyperlänk inslag innehåll inte återges om det är samma som hyperlänk URL, bortse från eventuella http:. // Prefix eller / suffix
  • EndTag.tidy () tar bort nu blank före sista fäste.
  • Lade Source (Arkiv) konstruktorn.
  • Lade OutputDocument.getSegment () metoden.
  • Lade OutputDocument.remove (int börja, int end) metoden.
  • Lade Renderer.setHRLineLength () metoden.
  • Lade RenderToText.jsp webapp prov.
  • Lade Segment.getRowColumnVector () metoden.
  • Kodning upptäckt ignorerar nu vanliga kodningar som anges i metataggar som har en kod enhetsstorlek oförenligt med den preliminära kodning.
  • Uppgraderad till följande logger API: slf4j-api-1.7.2, log4j-1.2.17

Vad är nytt i version 3.1:

  • Buggfixar:
  • [2793556] Oändlig loop på Segment.getAllStartTags ()
  • Oändlig loop på Segment.getAllElements ()
  • Segment.getFirst * metoder åter segment utanför begränsningssegmentet.
  • Segment.getAllElements metoder inte returnera alla slutna element i vissa fall.
  • Fasta dokumentations fel i Segment.getAllElements metoder.
  • Lade StreamedSource klass.
  • FÖRÄNDRINGAR som skulle kunna påverka BETEENDE befintliga program:
  • Ändrad ParseText från klassen som gränssnitt.
  • Segment.getNodeIterator () returnerar nu teckenreferenser som separata noder.
  • Inkom tag sökmetoder baserade på attributvärde reguljära uttryck.
  • Inkom tag sökmetoder baserade på HTML class-attribut.
  • Inkom statiska Source.LegacyNodeIteratorCompatabilityMode egendom tillfälligt återställa Segment.getNodeIterator () funktionalitet med den för tidigare versioner.
  • Bort char [] baserade sökmetoder i ParseText.
  • Lade CharacterReference.appendCharTo (tilläggbar) metoden.
  • Lade OutputDocument (Segment) konstruktorn.
  • Lade StreamedSourceCopy provprogram.

Vad är nytt i version 3.0:

  • Buggfixar:
  • Tecken referenser representerar unicode extra tecken som inte var korrekt avkodas till UTF-16-kod enhetsparen.
  • [2188446] Element.getDepth () och Element.getParentElement () return felaktiga resultat om kallas i parse on demand-läge.
  • Kommentarer redovisas nu inne & lt; manus & gt; element.
  • API förändringar som inte bakåtkompatibel:
  • Ändrad paketets namn till net.htmlparser.jericho
  • Attribut värden måste nu vara String stället CharSequence.
  • Borttagna alla föråldrade metoder / klasser från tidigare versioner.
  • Alla tycker * metoder ersatt med få * metoder för att tillämpa en konsekvent namnkonvention i alla tagg sökmetoder.
  • Tag, Element och HTMLElements klasser inte längre genomföra HTMLElementName gränssnittet. (Använd statisk import istället)
  • Alla samlingar nu stongly skrivit använder generika.
  • Ändrad FormControlOutputStyle klass till enum.
  • Ändrad FormControlType klass till enum.
  • Lade CharStreamSource.appendTo (tilläggbar) metoden.
  • Lade Source.iterator () metoden.
  • Källa implementerar nu Iterable.
  • Internt använder Stringbuilder för bättre prestanda.
  • Lade Source.getNextStartTag (StartTagType) metoden.
  • Lade Source.getNextEndTag (EndTagType) metoden.
  • Lade Source.getPreviousStartTag (StartTagType) metoden.
  • Lade Source.getPreviousEndTag (EndTagType) metoden.
  • Lade Segment.getAllStartTags (StartTagType) metoden.
  • Inkom alla Segment.getFirst * metoder.
  • Lade Renderer.renderHyperlinkURL (StartTag) metoden.
  • Lade HTMLSanitiser provprogram.
  • Uppgraderat till slf4j-api-1.5.6

Krav :

  • Java 2 Standard Edition Runtime Environment

Liknande mjukvara

Creoleparser
Creoleparser

11 May 15

Markdoc
Markdoc

11 May 15

ServingXML
ServingXML

3 Jun 15

RTextDoc
RTextDoc

17 Feb 15

Annan programvara för utvecklare Martin Jericho

Kommentarer till Jericho HTML Parser

Kommentarer hittades inte
Kommentar
Slå på bilder!