Aspseek är en sökmotor på Internet programvara som utvecklats av SWsoft och licensieras som fri programvara under GNU GPL.
Aspseek består av en indexeringsrobot, en sökning daemon, och ett CGI-sökning gränssnitt. Det kan indexera så många som ett par miljoner webbadresser och söka efter ord och fraser, använda jokertecken, och göra en boolesk sökning. Sökresultat kan begränsas till tidsperioden ges webbplats eller webbutrymme (uppsättning av platser) och sorteras efter relevans (Pagerank används) eller datum.
Aspseek är optimerad för flera webbplatser (gängade index, async DNS-uppslagningar, gruppera resultat efter webbplats, webb mellanslag), men kan användas för att söka en plats också. Aspseek kan arbeta med flera språk / kodningar på en gång (inklusive multibyte kodningar såsom kinesiska) på grund av Unicode-lagringsläge. Andra funktioner inkluderar stoppord och ispell support, en charset och språk guesser, HTML-mallar för sökresultat, utdrag, och frågeord belyser.
Aspseek är skrivet i C ++ med hjälp av STL-biblioteket, och använder blandning av SQL-databas och binära filer för lagring.
Här är några viktiga inslag i "Aspseek":
Förmåga att indexera och söka igenom flera miljoner dokument
· Med hjälp av Aspseek, kan du bygga en databas och söka igenom många platser, och resultat för varje fråga kommer att återlämnas snabbt även om du har några miljontals dokument indexeras. Naturligtvis beror detta på hårdvara, så förvänta dig inte "gamla goda" i486 maskin för att hantera varje plats i .com-domän. Allt beror på CPU (s), minne, disk hastighet etc. Så gör dina egna tester innan du köper dedikerad hårdvara.
· Det faktum att Aspseek är optimerad för stora volymer bör inte hindra dig från att använda den för att söka din egen webbplats som innehåller några hundra av handlingar - det fungerar där.
Mycket bra relevansen av resultat
· Syftet med sökmotorn är att hitta vad användaren vill. Det kan finnas tusentals webbadresser har hittats som en följd av sökfråga, men det kan alla vara irrelevant, så användaren blir nöjd.
· Utgångs resultat i Aspseek sorteras efter relevans (eller rang), men rang beräkning är inte en lätt uppgift. Utvecklare försökte sitt bästa för att införliva största och senaste tekniken i Aspseek motorn med bibehållen god sökhastigheten.
Ispell stöd
· När Aspseek används med ispell stöd, searchd (1) kan eventuellt hitta alla former för alla angivna ord (exempel: skapa -> Skapa eller skapas eller skapar). Så låter det dig att hitta ordet i alla olika former.
Unicode lagringsläge
· Aspseek kan lagra information om dokument i Unicode, vilket gör det möjligt att genomföra ett flerspråkiga sökmotor. Så kan du index och söka i dokumenten på engelska, ryska och även kinesiska, allt i en databas.
HTTP, HTTPS, HTTP-proxy, FTP (via proxy) protokoll
· Som Aspseek är en webb sökmotor använder den HTTP-protokollet att indexera webbplatser. Aspseek stöder också säker https: // protokoll. FTP-protokollet stöds inte direkt, men du kan använda proxy (som bläckfisk) och index FTP-platser via proxy.
· Aspseek stöder "grundläggande tillstånd" inslag i HTTP så att du kan indexera lösenordsskyddade områden (till exempel privata information i intranätet).
Text / html och text / plain dokumenttyper stöd
· Aspseek kan förstå dokument skrivna i HTML, samt vanliga textdokument. Dessa är de mest populära format i Internet.
· Andra format, såsom PDF, RTF, etc, kan stödjas med hjälp av något externt program / script som kan konvertera att format till HTML eller vanlig text.
Multithreaded design, async DNS resolver etc
· Aspseek använder POSIX trådar, som innebär att ett förfarande har många trådar som löper parallellt. Så nedladdningar indexera dokument från många platser, och söka daemon processer många sökfrågor samtidigt. Detta hjälper inte bara Aspseek att skala bra på SMP (multi) system, utan också förbättrar indexering hastighet, eftersom det i fallet med en tråd mest tid kommer att spenderas på att vänta på data från nätverket.
· En sak som långsam indexeringen ner en hel del är DNS-sökning (en process för att bestämma IP-adressen med servernamn). För att undvika förseningar, är asynkrona uppslag (lookup sker genom separata dedikerade processer) och IP-adress cache implementeras.
Stoppord
· Stoppord är ett ord som inte har någon betydelse i sig. Exempel: är, är på detta. Letar du efter på är meningslöst, så sådana ord är undantagna från sökfråga. Stoppord är också undantagna från databasen under indexering, så databasen blir mindre och snabbare.
· Det finns ingen "inbyggda" stoppord i Aspseek, de laddas under uppstart från filer. Många stoppord filer för olika språk levereras med Aspseek.
Teckenuppsättning guesse
· Vissa trasiga eller felkonfigurerade servrar inte berätta kunder charset där de tillhandahåller innehåll. Om du indexerar sådana servrar, eller använda Aspseek index ftp-servrar (FTP-protokollet vet ingenting om teckenuppsättningar), kan charset guesser användas för att ta itu med det. Teckenuppsättning guesser använder ord frekvenstabeller (kallade langmaps) för att bestämma korrekt charset.
Robot uteslutning standard (robots.txt) stöd
· Aspseek stöder till fullo denna standard. Den är avsedd för webbplats författare för att berätta roboten (till exempel Aspseek index (1)) att hoppa indexera vissa kataloger från sina webbplatser.
· För mer information se http://www.robotstxt.org/wc/robots.html
Inställningar för att kontrollera nätverks bandbredd och webbservrar belastning
· Du kan exakt kontrollera nätverksbandbredd att index (1) använder. Exakt, kan du begränsa bandbredden (uttryckt i byte per sekund) som används av index (1) för viss tid av dagen. Till exempel kan du begränsa bandbredden under kontorstid så att folk på kontoret inte kommer att uppleva långsam Internet.
· Du kan också ställa in den minsta tid mellan två förfrågningar till samma webbserver, så det kommer inte att överbelastas och fick ner på knä medan du kör index (1).
Realtid asynkron indexering
· Vissa sökmotorer kräver att sökningen ska stoppas under tiden för databasuppdatering. Aspseek inte behöver det, så att du kan söka non-stop.
· Mer att säga, det är ett speciellt läge för indexering kallas "realtid" indexering. Du kan använda den för litet antal handlingar, och i den mån ett sådant dokument hämtas och bearbetas, förändringar omedelbart synliga i sökgränssnitt. Den här funktionen är till stor hjälp om du bygger sökmotor för sidor med snabbt föränderliga innehåll såsom online-nyheter etc.
· Observera att antalet handlingar i "realtid" databasen är begränsad. Det handlar om 1000 på vår hårdvara (din mätarställning kan variera), och fler dokument som du har i "realtid" databas, desto långsammare blir hastigheten på indexering in i det (och bara det) databas. Detta kommer inte att påverka sökhastigheten dock.
· Dokument från "realtid" databasen flyttas till det normala databasen efter att ha kört index (1) på ett normalt sätt.
Sortera resultat efter relevans eller efter datum
· Sökmotorer tillbaka vanligen mest relevanta resultaten först. Men om du letar efter senaste sidor, kan du berätta Aspseek att sortera resultat av förra ändringsdatum, så nyligen ändrats (eller skapas) sidor kommer att visas först.
Utdrag frågeord belyser
· Utdrag är en bit hittade dokument med ord sökte markeras, bara för att ge en uppfattning om vad dokumentet handlar om. Du kan anpassa antalet utdrag visar och deras längd. Om du inaktiverar utdrag, kommer i början av dokumentet visas.
· Varje funnit dokument är tillsammans med den "Cachad" -länken. Aspseek håller en lokal komprimerad kopia av varje dokument som behandlas, så användaren kan se hela dokumentet med (tillval) betonade ord som sökt på, även om det har tagits bort från ursprungliga plats (det händer ibland).
Grupperingsresultat genom ställes
· Resultat från en webbplats kan grupperas tillsammans. Om gruppering av webbplatser är på, är bara två resultat visas från samma plats som standard, och användaren kan se andra sidor från samma plats genom att följa "Fler resultat från ..." länk.
Kloner
· Kloner är identiska dokument på olika platser. De upptäcks och grupperas tillsammans, så användaren kommer inte att presenteras med en sida full av webbadresser till samma dokument.
· Clone upptäckt är vanligtvis begränsad av en webbplats (så identiska dokument från olika platser räknas inte som kloner), men du kan ändra detta genom att kompilera Aspseek med --disable-kloner-by-plats alternativ.
Utrymmen och delmängder
· Utrymme är den uppsättning av platser. Så, om du vill ge sökandet minskat till något område, kan du skapa ett utrymme och söka inom det utrymmet. Endast hela platser (t.ex. http://www.mysite.com/) tillåts ingå i rymden.
· Delmängder kan också användas för att begränsa sökningen. Du kan skapa delmängd och sätta URL mask (som http://www.mysite.com/mydir/%) in i den, och sedan begränsa sökningen utrymme för att bara gett delmängd.
· Du kan begränsa sökningen utrymme för att inte bara en utan flera undergrupper eller mellanslag.
HTML-mallar för sökresultat lätt att skräddarsy
· Du kan anpassa dina söksidor, så att de kommer att se ut och vara sömlöst integreras med resten av din webbplats. Detta görs genom enkel redigering av sökning mallfilen.
Installation
gzip -dc Aspseek-1.2.10.tar.gz | tar xf -
cd Aspseek-1.2.10. / konfigurera
göra
su
make install
Mjukvaruinformation:
Version: 1.2.10
Ladda upp dagen: 3 Jun 15
Licens: Gratis
Popularitet: 83
Kommentarer hittades inte