![]() |
![]() |
![]()
Post
#1
|
|
Grupa: Zarejestrowani Postów: 295 Pomógł: 9 Dołączył: 8.02.2006 Ostrzeżenie: (0%) ![]() ![]() |
Witam
Staje przed pewnym dylematem. Otóż rozważam/potrzebuję/chcę stworzyć wyszukiwarkę. Sprawa polegałaby na tym, że wyszukiwarka przeszukuje nie całą sieć, ale zbiór/pewną ilość konkretnych stron internetowych. Teraz sprawa polega na stworzeniu własnego silnika, struktury bazo danowej i rozwiązaniu wielu innych problemów. Ciężko coś na ten temat znaleźć w sieci....czegoś konkretnego. Dlatego proszę o pomoc. Podsuńcie jakieś pomysły, poprawcie mnie jak będe gadał głupoty itp (IMG:http://forum.php.pl/style_emoticons/default/smile.gif) Kołacze mi się pierwsze myśl...zakładając, że ktoś będzie dodawał do bazy daną stronę internetową można by ją zindexować. Dodać słowa (tak jak w książce index słów) do bazy danyc. Dane słowo przypisać do unikalnego numeru id strony (uid_p). Ale boje się, że przy 10 stronach będzie to baza niewyobrażalnych rozmariów i może zrobić się długie oczekiwanie. Podsuńce swoje pomysły, ale także przydatne materiały. Wszystko się przyda |
|
|
![]() |
![]()
Post
#2
|
|
Grupa: Zarejestrowani Postów: 508 Pomógł: 75 Dołączył: 2.11.2005 Skąd: Bydgoszcz Ostrzeżenie: (0%) ![]() ![]() |
1. Potrzebny jest naprawde rozbudowany silnik
2. Najlepiej, gdyby uzytkownik podawal tylko URL, a pajączek pobieral dane strony 3. Gdyby dane byly podawane przez usera przy dodawaniu strony, podane slowa kluczowe/tytul strony moglby zupelnie byc inny niz w rzeczywistosci wiec stanowczo odradzam! 4. W Cronie ustawic sobie jedna godzine codziennie, o ktorej wszystkie strony bylyby indeksowane (pobierane dane, ukladanie slow kluczowych, zapisywanie tytulu strony) I to pobieranie danych ze stron najlepiej, gdyby bylo na jakims dedykowanym serwerze, innym niz wyszukiwarka, zeby administratorzy nie czepiali o naduzywanie lacza... Takie cos wykorzystuje chyba wiekszosc wyszukiwarek, wiec nie ma w tym zadnej wielkiej filozofii.. |
|
|
![]()
Post
#3
|
|
Grupa: Zarejestrowani Postów: 295 Pomógł: 9 Dołączył: 8.02.2006 Ostrzeżenie: (0%) ![]() ![]() |
1.Ale indeksowanie wyłącznie słów kluczowych z meta tagów czy np. całej zawartości stron?
2.Biorąc pod uwagę, że to administratorzy dodają stronę to nie będzie strachu o fałszywe słowa kluczowe 3."a pajączek pobierał dane strony" - możesz troche objaśnić? Tak zdaje sobie sprawę z tego, że codziennie będzie trzeba aktualizować dane dotyczące stron itp. Na szczęście na chwilę obecną (i późniejszą też raczej) nie muszę martwić się obciążeniem serwera |
|
|
![]()
Post
#4
|
|
Grupa: Zarejestrowani Postów: 508 Pomógł: 75 Dołączył: 2.11.2005 Skąd: Bydgoszcz Ostrzeżenie: (0%) ![]() ![]() |
1. Metatagi niewarto indeksowac, moze tylko dla informacji... Lepiej np pobierac slowa z h1, h2, sprawdzajac ich dlugosc (zeby tekst nie byl za dlugi w naglowku, np 600 slow (IMG:http://forum.php.pl/style_emoticons/default/biggrin.gif) )
2. Jezeli sa to zaufane osoby, to oczywiscie, mozna dac im mozliwosc wpisania slow kluczowych, ale to nie jest polecane (IMG:http://forum.php.pl/style_emoticons/default/tongue.gif) 3. Pajaczek - skrypt interpretujacy tagi na stronie, ktora jest dodana do wyszukiwarki, rozdzielanie na text, ktory jest mniej brany pod uwage przy wyszukiwaniu, i na naglowki |
|
|
![]()
Post
#5
|
|
Grupa: Zarejestrowani Postów: 566 Pomógł: 18 Dołączył: 23.08.2003 Skąd: Łomża Ostrzeżenie: (0%) ![]() ![]() |
Przyjrzyj się projektowi Lucene - http://lucene.apache.org/
Do php masz most w Zend_Frameworku - Zend_Search_Lucene |
|
|
![]()
Post
#6
|
|
Grupa: Zarejestrowani Postów: 295 Pomógł: 9 Dołączył: 8.02.2006 Ostrzeżenie: (0%) ![]() ![]() |
jescze ktoś jakieś pomysły (IMG:http://forum.php.pl/style_emoticons/default/smile.gif)
a zaczęło mnie jeszcze zastanawiać. Bo mogę spokojnie założyć że spora ilość osób może z grubsza w tym samym momencie z niej korzystać, tj. z wyszukiwarki. Co można zaradzić żeby zbytnio nie wpłynęło to na czas działania? Ten post edytował Fixus 10.09.2007, 21:07:46 |
|
|
![]()
Post
#7
|
|
Grupa: Zarejestrowani Postów: 566 Pomógł: 18 Dołączył: 23.08.2003 Skąd: Łomża Ostrzeżenie: (0%) ![]() ![]() |
jescze ktoś jakieś pomysły (IMG:http://forum.php.pl/style_emoticons/default/smile.gif) a zaczęło mnie jeszcze zastanawiać. Bo mogę spokojnie założyć że spora ilość osób może z grubsza w tym samym momencie z niej korzystać, tj. z wyszukiwarki. Co można zaradzić żeby zbytnio nie wpłynęło to na czas działania? Lucene (IMG:http://forum.php.pl/style_emoticons/default/winksmiley.jpg) |
|
|
![]() ![]() |
![]() |
Aktualny czas: 23.08.2025 - 10:23 |