Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

2 Stron V   1 2 >  
Reply to this topicStart new topic
> wyszukiwarka stron...
z3
post 20.10.2003, 15:14:29
Post #1





Grupa: Zarejestrowani
Postów: 2
Pomógł: 0
Dołączył: 20.10.2003

Ostrzeżenie: (0%)
-----


Może nie jest to zadanie dla php - ale czemu nie;)

Jak napisali byscie wyszukiwarke na ok 20mln stron??
Go to the top of the page
+Quote Post
DeyV
post 20.10.2003, 15:58:30
Post #2





Grupa: Zarząd
Postów: 2 277
Pomógł: 6
Dołączył: 27.12.2002
Skąd: Wołów/Wrocław




Zanim zaczniemy nad tym myśleć, może powiedz coś więcej?
Co chcesz osiągnąć? Skąd ta pewność, żę będzie 20 mln.?
Jak ma działać?
Bo niestety - ale w tej chwili trudno powiedzieć cokolwiek na ten temat.


--------------------
"Niezależnie od tego, jakie masz osiągnięcia, ktoś Ci pomaga..."
Go to the top of the page
+Quote Post
z3
post 20.10.2003, 16:06:02
Post #3





Grupa: Zarejestrowani
Postów: 2
Pomógł: 0
Dołączył: 20.10.2003

Ostrzeżenie: (0%)
-----


20 mln - liczba abstrakcyjna - aby wyraźić ze chodzi o duzy projekt z naprawde wydajna baza danych.

Co do samego projektu podzielił bym go na 3 części -
napisanie robota chodzacego po stronach i zapisującego dane - chyba najprosztszy etap

2 - stwozenie wydajnego systemu przeszukiwania bazy danych

3 - określenie reguł na miejsce strony pod szukaną frazą
Go to the top of the page
+Quote Post
MaKARON
post 20.10.2003, 23:09:41
Post #4





Grupa: Zarejestrowani
Postów: 114
Pomógł: 1
Dołączył: 17.07.2003

Ostrzeżenie: (0%)
-----


Kiedyś nad tym myślałem, ale projekt jest tak zaj...[cenzura] zawikłany że dałem sobie spokój (na etapie projektu), zabrałem się za to za projekt mniejszej bazy, ale o podobnych założeniach WTF (What The Faq) - baza faq'ów z wyszukiwarką. Mimo prostego pomysłu, projekt był bardzo skomplikowany - właśnie trzeci punkt był bardzo ważny w moim projekcie... który również padł, ale powstało część kodu. Może kiedyś znów spróbuję... smile.gif jeżeli znalazłaby się ekipa smile.gif (php+ADOdb+Smarty) - pisałem w tej sprawie do właściciela faq.pl, ale nawet nie odpowiedział.

KaMeLeOn: Panie MaKARON... Na forum php.pl uważamy na słownictwo.
Go to the top of the page
+Quote Post
raf2001
post 25.10.2003, 18:20:57
Post #5





Grupa: Zarejestrowani
Postów: 116
Pomógł: 0
Dołączył: 14.06.2002
Skąd: Żyrardów

Ostrzeżenie: (0%)
-----


Można by było także oprzeć swoją wyszukiwarke na zasadzie "złodziejskiej". A chodzi mi o to:
Skrypt wysyła zapytanie (odpowiednie swormułowanie oczywiście) do jednej ze stron (google - światowe szukanie, netsprint - polskie). póznij pobrać strone wynikową sformatować aby pasowała do strony (w tym usuwanie linków sponsorowanych, czy coś takiego). koncepcja prosta, chyba gorzej z wykonaniem
Go to the top of the page
+Quote Post
Seth
post 25.10.2003, 18:23:18
Post #6





Grupa: Przyjaciele php.pl
Postów: 2 335
Pomógł: 6
Dołączył: 7.03.2002

Ostrzeżenie: (0%)
-----


To co propunejesz raf2001 jest wbbrew pozorom latwe do napisania.
Wystarczy skorzystac z API goole i uzyc do niego jakiejs gotwej klasy do jej obslugi i wydawac zapytania w postaci <zapytanie> site:<adres strony>.
Go to the top of the page
+Quote Post
Nitryt14
post 18.02.2004, 20:41:04
Post #7





Grupa: Zarejestrowani
Postów: 76
Pomógł: 0
Dołączył: 17.02.2004
Skąd: Gdańsk

Ostrzeżenie: (0%)
-----


Piszecie o robotach buszujących w necie.
Ale w czym byście napisali takiego robota rolleyes.gif
Według mnie nie jest to wcale takie proste jak się to wydaje.
Go to the top of the page
+Quote Post
dag
post 19.02.2004, 08:35:52
Post #8





Grupa: Zarejestrowani
Postów: 180
Pomógł: 0
Dołączył: 24.12.2003

Ostrzeżenie: (0%)
-----


NItry14: W czym? Chociażby w php. A jak nie php to Java, C++........

Oczywiście wszystko musi wydajnie chodzić przy tak dużej ilości.

Jednak nie jest łatwe napisanie takiego robota.
Go to the top of the page
+Quote Post
raf2001
post 19.02.2004, 16:01:53
Post #9





Grupa: Zarejestrowani
Postów: 116
Pomógł: 0
Dołączył: 14.06.2002
Skąd: Żyrardów

Ostrzeżenie: (0%)
-----


mój sposób niebyl by bardzo wydajny, ale jakoś by to szło. Moim zdaniem zrobienie takiego systemu, to dla znających sie dobrze na php to okolo 2 dni roboty (jestem teoretykiem, wiec tego raczej niezrobie). Skrypt był by oparty na takiej architekturze:
1. Ktoś w inpucie wpisuje czego szuka
2. skrypt odwołuje się do jednej z wyszukiwarek (lista wyników zrobiona tak w zapytaniu, aby na jednej stronie bylo jak najwięcej odpowiedzi)
3. skrypt "podkrada dane" ze strony i formatuje z nich własne, wyświetlając je (z podziłame na strony):
podkradanie tych danych mogło być przeprowadzone na dwa sposoby:
a. w realu - czyli przykładowo odwołujemy sie do wyszukiwarki, aby pobrać dane (w tym przypadku np 25 rekordów) i poprostu je wyświetlić na stronie skryptu
b. w pamięci (tak to nazwalem) - skrypt odwołuje się do wyszukiwarki, pobiera maxymalną ilośc rekordów (rekordy, to ilośc wyświetlen wyników na jednej stronie np 150.), oborka ich podzielenie ich na nowe strony np po 20 rekordów i wyswietlenie
Taka jest moja teoria a kto co jak zrobi to jego sprawa 8)

ps. skrypty mogły by być 2: php lub perl. Moim zdaniem perl łatwiej by to załatwił (ale go nieznam więc to tylko moje domysły)


--------------------
Go to the top of the page
+Quote Post
Seth
post 19.02.2004, 16:18:36
Post #10





Grupa: Przyjaciele php.pl
Postów: 2 335
Pomógł: 6
Dołączył: 7.03.2002

Ostrzeżenie: (0%)
-----


Tutaj http://www.google.pl/intl/pl/apis/ sa informacje jak pobierac wyniki z googli uzywajac ich API. Przyklady sa dla Javy i .NET'a ale nic nie stoi na przeszkodzie aby napsiac to w php.
Go to the top of the page
+Quote Post
raf2001
post 19.02.2004, 16:40:55
Post #11





Grupa: Zarejestrowani
Postów: 116
Pomógł: 0
Dołączył: 14.06.2002
Skąd: Żyrardów

Ostrzeżenie: (0%)
-----


to moze niech ktoś zrobi taki skrypcik, w najprostszej formie (osobiście nielubie class, więc wolałbym bez tego). skrypcik: thief laugh.gif rolleyes.gif


--------------------
Go to the top of the page
+Quote Post
bumelang
post 19.02.2004, 17:17:08
Post #12





Grupa: Zarejestrowani
Postów: 36
Pomógł: 0
Dołączył: 30.11.2003

Ostrzeżenie: (0%)
-----


Generalnie pisanie robotów jest sprawą dużo trudniejszą niż się wydaje i php się do tego nie nadaje z 2 powodów:

1) przechowywanie indeksów - zwykła baza danych takiego zadania się nie ima - jeśli taka metoda przechowywania danych zostanie zastosowana, to nie będzie to tak wydajne, ani skalowalne jak rozwiązanie autorskie; z reguły buduje się specjalne indeksy słów na jakiś drzewach binarnych itp. - jak nie trudno zgadnąć w php napisanie czegoś takiego jest - jeśli nawet możliwe - mało sensowne
2) język polski - zagadnienie normalizacji (czyli sprowadzanie słów do form pierwotnych - bezokolicznika dla czasowników czy mianownika l.p. dla rzeczowników); realizują to specjalne algorytmy działające z reguły na indeksach wszystkich słów języka polskiego we wszystkich formach i próbujące wyznaczyć odopowiednie znaczenie z kontekstu gramatycznego; przykładem takiego podejścia do tego zadania jest NetSprint; w każdym razie ta złożoność obliczeniowa też nie jest dla php

W reszcie - jak ktoś już wcześniej zauważył wyszukiwarka najpierw buduje indeks (co w przypadku 2 mln. stron może potrwać bardzo długo) a dopiero potem z niego korzysta.

Jeśli kogoś interesuje dobra wyszukiwarka OpenSource w ogóle, to jest nią bez wątpienia Lucene (http://jakarta.apache.org/lucene/docs/index.html), ale jest napisana w Javie i niestety nie obsługuje normalizacji dla języka polskiego - z resztą generalnie polskie algorytmy normalizacji nie są dostępne w bezpłatnych implementacjach.

Nie polecam w każdym razie pisania wyszukiwarki bez odpowiedniej wiedzy, a już na pewno nie w php smile.gif
Go to the top of the page
+Quote Post
raf2001
post 19.02.2004, 18:18:41
Post #13





Grupa: Zarejestrowani
Postów: 116
Pomógł: 0
Dołączył: 14.06.2002
Skąd: Żyrardów

Ostrzeżenie: (0%)
-----


nasze założenia się różnią, ty mówisz o tworzeniu od podstaw wyszukiwarki, ja tylko o "złodziejstwie" ( biggrin.gif ). moja zasada jest moim zdaniem prosta w zrozumieniu (chodz może trudna w zrobieniu, no ale...). Pozatym czy ktoś mialby czas na zabawe w robienie polskiego googl'a.

Ps. google.pl opiera się na kilku wyszukiwarkach polskich,więc pół roboty by było z glowy :wink:


--------------------
Go to the top of the page
+Quote Post
Seth
post 19.02.2004, 18:25:57
Post #14





Grupa: Przyjaciele php.pl
Postów: 2 335
Pomógł: 6
Dołączył: 7.03.2002

Ostrzeżenie: (0%)
-----


Cytat
Ps. google.pl opiera się na kilku wyszukiwarkach polskich,więc pół roboty by było z glowy  :wink:

:?:
Go to the top of the page
+Quote Post
raf2001
post 19.02.2004, 19:08:03
Post #15





Grupa: Zarejestrowani
Postów: 116
Pomógł: 0
Dołączył: 14.06.2002
Skąd: Żyrardów

Ostrzeżenie: (0%)
-----


Gdzies czytałem, że google nieposiada własnej bazy, opiera sie na onecie, wp i innych tego typu polskich wyszukiwarkach. niewiem co on dokładnie robi, ale opiera się (czy indeksuje onet,wp i inne i potem z tego kożysta, niewiem dokładnie, ale takie cos było)
ps. przynajmniej tak mi się zdaje rolleyes.gif


--------------------
Go to the top of the page
+Quote Post
spenalzo
post 19.02.2004, 19:20:27
Post #16





Grupa: Zarejestrowani
Postów: 2 064
Pomógł: 1
Dołączył: 22.01.2003
Skąd: Poznań

Ostrzeżenie: (0%)
-----


Chyba odwrotnie... Onet korzysta z googli przy szukaniu po zagranicznych stronach.


--------------------

Go to the top of the page
+Quote Post
Nalfein][WR
post 19.02.2004, 19:26:58
Post #17





Grupa: Zarejestrowani
Postów: 66
Pomógł: 0
Dołączył: 22.04.2003
Skąd: Żory / K-ce

Ostrzeżenie: (0%)
-----


Bzdura. Google ma własną bazę danych, rozproszoną na wiele komputerów. Korzysta z całkiem innych algorytmów, indeksuje strony inaczej (np. napisz w google "masło maślane" i "maślane masło" - otrzymasz inne zestawy wyników, gdyż Google uwzględnia odległość dopasowanych wyrazów) i nie ma porównania z takim sobie Onetem. Z kolei WP ogłasza upadłość - jak WP padnie to Google polskie też? Bzdura do kwadratu.


--------------------
Gadu-Gadu: 3909164
Go to the top of the page
+Quote Post
raf2001
post 20.02.2004, 20:44:21
Post #18





Grupa: Zarejestrowani
Postów: 116
Pomógł: 0
Dołączył: 14.06.2002
Skąd: Żyrardów

Ostrzeżenie: (0%)
-----


nieważne, ale napewno jakoś z siebie kożystają (mniejsza już o to który z którego, jak znajde opis to zacytuje). Teraz może ktoś ma inny pomysł na wyszukiwarke niż moje?


--------------------
Go to the top of the page
+Quote Post
Nalfein][WR
post 20.02.2004, 21:14:26
Post #19





Grupa: Zarejestrowani
Postów: 66
Pomógł: 0
Dołączył: 22.04.2003
Skąd: Żory / K-ce

Ostrzeżenie: (0%)
-----


Ja pisałem w odpowiedzi na Twój post - pisaliśmy je ze spenalzo w tym samym czasie prawie smile.gif Mozliwe, że Onet korzysta z Google, ale na odwrót nie bardzo "z przyczyn technicznych".

Ja bym zrobił wyszukiwarkę w oparciu o Google - są bardzo szybkie, mają wygodny dostęp przez WebServices - nie trzeba parsować wyników z HTML-a. Czegóż chcieć więcej winksmiley.jpg


--------------------
Gadu-Gadu: 3909164
Go to the top of the page
+Quote Post
raf2001
post 21.02.2004, 10:20:14
Post #20





Grupa: Zarejestrowani
Postów: 116
Pomógł: 0
Dołączył: 14.06.2002
Skąd: Żyrardów

Ostrzeżenie: (0%)
-----


skryptu laugh.gif


--------------------
Go to the top of the page
+Quote Post

2 Stron V   1 2 >
Reply to this topicStart new topic
1 Użytkowników czyta ten temat (1 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Wersja Lo-Fi Aktualny czas: 19.07.2025 - 04:11