Archiv verlassen und diese Seite im Standarddesign anzeigen : Suchmaschine mit Bot etc..
Hallo
Ich habe vor eine Suchmaschine für mein LAN zu proggen, das dazu dienen soll genau wie google, o.ä. Suchmaschinen Webseiten auf diversen Server zu indexen (*g* toller begriff).
Nur um da mal irgendwie einzusteigen bin ich gerade auf der Suche nach Beispielen und Anleitungen wie Suchmaschienen bzw. deren Bots arbeiten...
Wenn jemand auch nur ansatzweise eine Idee hat würde ich mich super freuen
Gruß
Oli
google bietet das für's LAN an, musste mal mit google nach google suchen ;)
oki das war mir schon klar aber
ich möchte das ganze halt selbst zusammenstricken..
muss viel angepasst werden und soll 100% selfmade werden..
daher die frage wie soetwas aufgebaut ist oder so...
trotzdem danke
Jan Krüger
23.07.2002, 12:10
naja, du schreibst ein programm, das am einen ende submissions für neue webseiten, die indiziert werden sollen, annimmt, und am anderen ende alle wörter der angegeben seiten in die datenbank schreibst (ok, das muss noch viel besser ausgebaut werden, google berechnet beim suchen z.b. auch die trefferquote daran, wie nah die einzelnen suchwörter in der seite aneinanderstehen). dann musst du im HTML alle links (und natürlich meta-tags, doku dafür gibts z.b. bei SelfHTML) parsen (evtl. auch javascript-links) und die verlinkten seiten auch überprüfen. wenn du alle verzweigungen durch hast, arbeitest du wieder die warteschlange der neuen submissions durch und gehst danach auch wieder die schon eingetragenen seiten durch und aktualisierst den datenstand.
wenn du willst kannst du das ganze natürlich auch begrenzen, dass mit der aktualisierung frühestens einen tag nach start der letzten angefangen wird.
wenn du eine solche begrenzung nicht drin hast, wird das programm ohne pause arbeiten (und den computer auslasten ;)).
hai
joa ich habe dann auch mal die schlaue idee gehabt bei sourceforge nachzuschauen und habe dort schonmal ein paar perl scripte gefunden die das machen was ich such...
aber wenn überhaupt soll das ganze in C++ geschrieben werden.
Der "Webcrawler" wird schon ziemlich komplex wie ich finde...
Soll submittete Seiten durchsuchen und die ergebnisse in eine Datenbank schreiben...
Das Frontend ist nicht das Problem..nur halt das sammeln von den Daten...
:-)
Jan Krüger
23.07.2002, 14:19
ich weiß nicht... ich denke, in Perl wäre das viiel einfacher. aber wenn du es unbedingt in c++ machen willst, halte ich dich natürlich nicht davon ab. :)
ok, perl wäre auch nicht das problem auch wenn ich dann eher zu TCL tendieren würde, da ich das wesentlich besser beherrsche..
ich weiss nur leider überhaupt nicht wie performant Perl ist.
Ich meine wenn ich Tage lang den Crawler laufen lasse und die ergebnisse in die DB eintragen lasse, soll das auch performant laufen...
Ne Ahnung davon??
vBulletin® v3.8.6, Copyright ©2000-2012, Jelsoft Enterprises Ltd.