Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

> [php]wyszukiwarka, nie tylko dla prostej storny
Fixus
post
Post #1





Grupa: Zarejestrowani
Postów: 295
Pomógł: 9
Dołączył: 8.02.2006

Ostrzeżenie: (0%)
-----


Witam
Staje przed pewnym dylematem. Otóż rozważam/potrzebuję/chcę stworzyć wyszukiwarkę. Sprawa polegałaby na tym, że wyszukiwarka przeszukuje nie całą sieć, ale zbiór/pewną ilość konkretnych stron internetowych. Teraz sprawa polega na stworzeniu własnego silnika, struktury bazo danowej i rozwiązaniu wielu innych problemów. Ciężko coś na ten temat znaleźć w sieci....czegoś konkretnego. Dlatego proszę o pomoc. Podsuńcie jakieś pomysły, poprawcie mnie jak będe gadał głupoty itp (IMG:http://forum.php.pl/style_emoticons/default/smile.gif)

Kołacze mi się pierwsze myśl...zakładając, że ktoś będzie dodawał do bazy daną stronę internetową można by ją zindexować. Dodać słowa (tak jak w książce index słów) do bazy danyc. Dane słowo przypisać do unikalnego numeru id strony (uid_p). Ale boje się, że przy 10 stronach będzie to baza niewyobrażalnych rozmariów i może zrobić się długie oczekiwanie. Podsuńce swoje pomysły, ale także przydatne materiały. Wszystko się przyda
Go to the top of the page
+Quote Post
 
Start new topic
Odpowiedzi (1 - 6)
franki01
post
Post #2





Grupa: Zarejestrowani
Postów: 508
Pomógł: 75
Dołączył: 2.11.2005
Skąd: Bydgoszcz

Ostrzeżenie: (0%)
-----


1. Potrzebny jest naprawde rozbudowany silnik

2. Najlepiej, gdyby uzytkownik podawal tylko URL, a pajączek pobieral dane strony

3. Gdyby dane byly podawane przez usera przy dodawaniu strony, podane slowa kluczowe/tytul strony moglby zupelnie byc inny niz w rzeczywistosci wiec stanowczo odradzam!

4. W Cronie ustawic sobie jedna godzine codziennie, o ktorej wszystkie strony bylyby indeksowane (pobierane dane, ukladanie slow kluczowych, zapisywanie tytulu strony)

I to pobieranie danych ze stron najlepiej, gdyby bylo na jakims dedykowanym serwerze, innym niz wyszukiwarka, zeby administratorzy nie czepiali o naduzywanie lacza...


Takie cos wykorzystuje chyba wiekszosc wyszukiwarek, wiec nie ma w tym zadnej wielkiej filozofii..
Go to the top of the page
+Quote Post
Fixus
post
Post #3





Grupa: Zarejestrowani
Postów: 295
Pomógł: 9
Dołączył: 8.02.2006

Ostrzeżenie: (0%)
-----


1.Ale indeksowanie wyłącznie słów kluczowych z meta tagów czy np. całej zawartości stron?

2.Biorąc pod uwagę, że to administratorzy dodają stronę to nie będzie strachu o fałszywe słowa kluczowe

3."a pajączek pobierał dane strony" - możesz troche objaśnić?

Tak zdaje sobie sprawę z tego, że codziennie będzie trzeba aktualizować dane dotyczące stron itp. Na szczęście na chwilę obecną (i późniejszą też raczej) nie muszę martwić się obciążeniem serwera
Go to the top of the page
+Quote Post
franki01
post
Post #4





Grupa: Zarejestrowani
Postów: 508
Pomógł: 75
Dołączył: 2.11.2005
Skąd: Bydgoszcz

Ostrzeżenie: (0%)
-----


1. Metatagi niewarto indeksowac, moze tylko dla informacji... Lepiej np pobierac slowa z h1, h2, sprawdzajac ich dlugosc (zeby tekst nie byl za dlugi w naglowku, np 600 slow (IMG:http://forum.php.pl/style_emoticons/default/biggrin.gif) )

2. Jezeli sa to zaufane osoby, to oczywiscie, mozna dac im mozliwosc wpisania slow kluczowych, ale to nie jest polecane (IMG:http://forum.php.pl/style_emoticons/default/tongue.gif)

3. Pajaczek - skrypt interpretujacy tagi na stronie, ktora jest dodana do wyszukiwarki, rozdzielanie na text, ktory jest mniej brany pod uwage przy wyszukiwaniu, i na naglowki
Go to the top of the page
+Quote Post
GrayHat
post
Post #5





Grupa: Zarejestrowani
Postów: 566
Pomógł: 18
Dołączył: 23.08.2003
Skąd: Łomża

Ostrzeżenie: (0%)
-----


Przyjrzyj się projektowi Lucene - http://lucene.apache.org/
Do php masz most w Zend_Frameworku - Zend_Search_Lucene
Go to the top of the page
+Quote Post
Fixus
post
Post #6





Grupa: Zarejestrowani
Postów: 295
Pomógł: 9
Dołączył: 8.02.2006

Ostrzeżenie: (0%)
-----


jescze ktoś jakieś pomysły (IMG:http://forum.php.pl/style_emoticons/default/smile.gif)

a zaczęło mnie jeszcze zastanawiać. Bo mogę spokojnie założyć że spora ilość osób może z grubsza w tym samym momencie z niej korzystać, tj. z wyszukiwarki. Co można zaradzić żeby zbytnio nie wpłynęło to na czas działania?

Ten post edytował Fixus 10.09.2007, 21:07:46
Go to the top of the page
+Quote Post
GrayHat
post
Post #7





Grupa: Zarejestrowani
Postów: 566
Pomógł: 18
Dołączył: 23.08.2003
Skąd: Łomża

Ostrzeżenie: (0%)
-----


Cytat(Fixus @ 10.09.2007, 19:41:49 ) *
jescze ktoś jakieś pomysły (IMG:http://forum.php.pl/style_emoticons/default/smile.gif)

a zaczęło mnie jeszcze zastanawiać. Bo mogę spokojnie założyć że spora ilość osób może z grubsza w tym samym momencie z niej korzystać, tj. z wyszukiwarki. Co można zaradzić żeby zbytnio nie wpłynęło to na czas działania?



Lucene (IMG:http://forum.php.pl/style_emoticons/default/winksmiley.jpg)
Go to the top of the page
+Quote Post

Reply to this topicStart new topic
2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Aktualny czas: 23.08.2025 - 10:23