Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

> Polskie "google" jaka baza pod to, teoria projektowania wyszukiwarki typu google
www.aukcje.fm
post
Post #1





Grupa: Zarejestrowani
Postów: 173
Pomógł: 1
Dołączył: 4.05.2010

Ostrzeżenie: (20%)
X----


Teoria projektowania wyszukiwarki typu google

Witam serdecznie,

Teoryzując i zakładając że ktoś posiada słownik z kilkoma milionami słów (odmian i synonimów) i ten ktoś chciałby stworzyć "małe polskie google" dla większości polskich wartościowych stron www, indexując ok. 100 - 500 milionów stron to jakiej bazy należało by tutaj użyć i jakiego języka dla wyszukiwania pełnotekstowego?

Czy baza relatywna czy nierelatywna. Czy ten ktoś powinien użyć sprawdzonej bazy typu mysql lub postgres czy jakiejś nowo opracowanej typu cassandra, memsql, lub jakaś inna?

Czy lepiej użyć do tego php czy może phyton a może java? Który język był by najlepszy dla robota indexującego strony a który dla wyszukiwania.

Czy powinien być jakiś system ograniczania lub cachowania wyników?

Wszytko by się działo na serwerach z 4 rdzeniowymi xeonami, każdy po 16 GB, system Debian 64 (możliwość użycia dysków SSD np Crucial M4).

Oczywiście nikt nie chce indexować takiej ilości danych co google ale taka miniaturka sprawnie działająca na cz mogła by się opierać...(IMG:style_emoticons/default/questionmark.gif) ?
Go to the top of the page
+Quote Post
 
Start new topic
Odpowiedzi
sowiq
post
Post #2





Grupa: Zarejestrowani
Postów: 1 890
Pomógł: 339
Dołączył: 14.12.2006
Skąd: Warszawa

Ostrzeżenie: (0%)
-----


Cytat
Czy ten ktoś powinien użyć sprawdzonej bazy typu mysql lub postgres czy jakiejś nowo opracowanej typu cassandra, memsql, lub jakaś inna?

Miliard rekordów i MySQL? Buahaha (IMG:style_emoticons/default/biggrin.gif) Memsql, który trzyma wszystko w RAMie? Buahaha (IMG:style_emoticons/default/biggrin.gif)

IMO do takiej liczby rekordów najlepiej zacząć research od komercyjnych rozwiązań jak Oracle czy MS SQL, a nie jakiś MySQL. Co prawda z takimi liczbami rekordów nie miałem do czynienia (raczej rząd wielkości niżej), ale piszę to na zdrowy rozum i domyślam się, że sporo osób potwierdziłoby moją tezę.

[edit]
Cytat
Wszytko by się działo na serwerach z 4 rdzeniowymi xeonami, każdy po 16 GB, system Debian 64 (możliwość użycia dysków SSD np Crucial M4).

Swego czasu pracowałem przy sklepie Magento z dosyć sporym katalogiem produktów (ale na pewno nie miliard rekordów w bazie, nawet sumarycznie dla wszystkich tabel). Z tego co pamiętam, baza danych (z braku innego wyjścia dla Magento - MySQL) stała na dwóch serwerach, po 16 rdzeni i 64 GB RAMu każdy, z dyskami SSD. Przy trochę cięższych operacjach nawet takie maszyny dostawały lekkiej zadyszki.

Ten post edytował sowiq 1.10.2012, 19:19:50
Go to the top of the page
+Quote Post

Posty w temacie
- www.aukcje.fm   Polskie "google" jaka baza pod to   29.09.2012, 11:35:57
- - erix   Sphinx.   29.09.2012, 15:14:05
- - www.aukcje.fm   Sphinx działa pod php i w phyton. Jaka baza pod S...   29.09.2012, 15:20:12
- - mmmmmmm   Zależy jakie informacje chcesz przechowywać. jeśli...   29.09.2012, 15:38:15
- - www.aukcje.fm   Witam, Wiem o co chodzi, mam kilka portali i wysz...   29.09.2012, 17:59:02
- - erix   To po co piszesz na forum?   1.10.2012, 11:51:01
- - www.aukcje.fm   po to że chcemy mieć miliard rekordów stron w bazi...   1.10.2012, 18:58:59
- - sowiq   CytatCzy ten ktoś powinien użyć sprawdzonej bazy t...   1.10.2012, 19:14:50
- - www.aukcje.fm   A baza postgers Podobno ma wbudowaną funkcję obsł...   2.10.2012, 11:33:02
- - sowiq   Co do Postgresa, to się nie wypowiem, bo po prostu...   2.10.2012, 11:42:33
- - xdev   CytatIMO do takiej liczby rekordów najlepiej zaczą...   2.10.2012, 11:43:06
- - erix   Nie rozumiem jednego - czemu upieracie się przy SQ...   2.10.2012, 13:08:27
- - sada   NoSQL: HBase, może Mongo   5.10.2012, 17:47:47
- - www.aukcje.fm   http://www.progresowi.pl/2011/11/10/porown...vs-mo...   6.10.2012, 23:18:12
- - xdev   Każdy kto choć raz miał styczność z mongo i bazami...   8.10.2012, 14:58:33
- - darko   Solr, polecam. Ma wiele gotowych mechanizmów, jaki...   8.10.2012, 16:48:55
- - www.aukcje.fm   Hmm mongo chyba odpada. Do wyszukiwania będzie pra...   19.10.2012, 17:54:24
- - darko   Solr nie korzysta z żadnej bazy danych (i m.in. dl...   22.10.2012, 14:48:35
- - erix   Strukturę pól ustawia się w konfiguracji engine...   22.10.2012, 14:55:11


Reply to this topicStart new topic
2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Aktualny czas: 5.10.2025 - 04:56