Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

> wyszukiwarka stron...
z3
post
Post #1





Grupa: Zarejestrowani
Postów: 2
Pomógł: 0
Dołączył: 20.10.2003

Ostrzeżenie: (0%)
-----


Może nie jest to zadanie dla php - ale czemu nie;)

Jak napisali byscie wyszukiwarke na ok 20mln stron??
Go to the top of the page
+Quote Post
 
Start new topic
Odpowiedzi
bumelang
post
Post #2





Grupa: Zarejestrowani
Postów: 36
Pomógł: 0
Dołączył: 30.11.2003

Ostrzeżenie: (0%)
-----


Generalnie pisanie robotów jest sprawą dużo trudniejszą niż się wydaje i php się do tego nie nadaje z 2 powodów:

1) przechowywanie indeksów - zwykła baza danych takiego zadania się nie ima - jeśli taka metoda przechowywania danych zostanie zastosowana, to nie będzie to tak wydajne, ani skalowalne jak rozwiązanie autorskie; z reguły buduje się specjalne indeksy słów na jakiś drzewach binarnych itp. - jak nie trudno zgadnąć w php napisanie czegoś takiego jest - jeśli nawet możliwe - mało sensowne
2) język polski - zagadnienie normalizacji (czyli sprowadzanie słów do form pierwotnych - bezokolicznika dla czasowników czy mianownika l.p. dla rzeczowników); realizują to specjalne algorytmy działające z reguły na indeksach wszystkich słów języka polskiego we wszystkich formach i próbujące wyznaczyć odopowiednie znaczenie z kontekstu gramatycznego; przykładem takiego podejścia do tego zadania jest NetSprint; w każdym razie ta złożoność obliczeniowa też nie jest dla php

W reszcie - jak ktoś już wcześniej zauważył wyszukiwarka najpierw buduje indeks (co w przypadku 2 mln. stron może potrwać bardzo długo) a dopiero potem z niego korzysta.

Jeśli kogoś interesuje dobra wyszukiwarka OpenSource w ogóle, to jest nią bez wątpienia Lucene (http://jakarta.apache.org/lucene/docs/index.html), ale jest napisana w Javie i niestety nie obsługuje normalizacji dla języka polskiego - z resztą generalnie polskie algorytmy normalizacji nie są dostępne w bezpłatnych implementacjach.

Nie polecam w każdym razie pisania wyszukiwarki bez odpowiedniej wiedzy, a już na pewno nie w php (IMG:http://forum.php.pl/style_emoticons/default/smile.gif)
Go to the top of the page
+Quote Post

Posty w temacie
- z3   wyszukiwarka stron...   20.10.2003, 15:14:29
- - DeyV   Zanim zaczniemy nad tym myśleć, może powiedz coś w...   20.10.2003, 15:58:30
- - z3   20 mln - liczba abstrakcyjna - aby wyraźić ze chod...   20.10.2003, 16:06:02
- - MaKARON   Projekt   20.10.2003, 23:09:41
- - raf2001   Można by było także oprzeć swoją wyszukiwarke na z...   25.10.2003, 18:20:57
- - Seth   To co propunejesz raf2001 jest wbbrew pozorom latw...   25.10.2003, 18:23:18
- - Nitryt14   Jak to zrobić?   18.02.2004, 20:41:04
- - dag   NItry14: W czym? Chociażby w php. A jak nie php to...   19.02.2004, 08:35:52
- - raf2001   mój sposób niebyl by bardzo wydajny, ale jakoś by ...   19.02.2004, 16:01:53
- - Seth   Tutaj http://www.google.pl/intl/pl/apis/ sa inform...   19.02.2004, 16:18:36
- - raf2001   to moze niech ktoś zrobi taki skrypcik, w najprost...   19.02.2004, 16:40:55
- - bumelang   Generalnie pisanie robotów jest sprawą dużo trudni...   19.02.2004, 17:17:08
- - raf2001   nasze założenia się różnią, ty mówisz o tworzeniu ...   19.02.2004, 18:18:41
- - Seth   CytatPs. google.pl opiera się na kilku wyszukiwark...   19.02.2004, 18:25:57
- - raf2001   Gdzies czytałem, że google nieposiada własnej bazy...   19.02.2004, 19:08:03
- - spenalzo   Chyba odwrotnie... Onet korzysta z googli przy szu...   19.02.2004, 19:20:27
- - Nalfein][WR   Bzdura. Google ma własną bazę danych, rozproszoną ...   19.02.2004, 19:26:58
- - raf2001   nieważne, ale napewno jakoś z siebie kożystają (mn...   20.02.2004, 20:44:21
- - Nalfein][WR   Ja pisałem w odpowiedzi na Twój post - pisaliśmy j...   20.02.2004, 21:14:26
- - raf2001   skryptu   21.02.2004, 10:20:14
- - Simpson   napisanie skryptu to akurat sprawa banalna... Kied...   21.02.2004, 10:28:40
- - raf2001   SETH mówił i myśle ze to było by lepsze rozwiązani...   21.02.2004, 10:51:39
- - Nalfein][WR   No to raf2001 - uczyć się WebService i zabierać si...   21.02.2004, 13:05:41
- - raf2001   temat jest na pro, bo moje rozwiązanie to jedna pr...   21.02.2004, 13:09:13
- - splatch   Czytalem o zaawansowanej wyszukiwarce, ale zrobion...   24.02.2004, 14:46:03


Reply to this topicStart new topic
2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Aktualny czas: 10.10.2025 - 07:15