Polskie "google" jaka baza pod to

Polskie "google" jaka baza pod to, teoria projektowania wyszukiwarki typu google

www.aukcje.fm Zobacz profil	29.09.2012, 11:35:57 Post #1
Grupa: Zarejestrowani Postów: 173 Pomógł: 1 Dołączył: 4.05.2010 Ostrzeżenie: (20%)	Teoria projektowania wyszukiwarki typu google Witam serdecznie, Teoryzując i zakładając że ktoś posiada słownik z kilkoma milionami słów (odmian i synonimów) i ten ktoś chciałby stworzyć "małe polskie google" dla większości polskich wartościowych stron www, indexując ok. 100 - 500 milionów stron to jakiej bazy należało by tutaj użyć i jakiego języka dla wyszukiwania pełnotekstowego? Czy baza relatywna czy nierelatywna. Czy ten ktoś powinien użyć sprawdzonej bazy typu mysql lub postgres czy jakiejś nowo opracowanej typu cassandra, memsql, lub jakaś inna? Czy lepiej użyć do tego php czy może phyton a może java? Który język był by najlepszy dla robota indexującego strony a który dla wyszukiwania. Czy powinien być jakiś system ograniczania lub cachowania wyników? Wszytko by się działo na serwerach z 4 rdzeniowymi xeonami, każdy po 16 GB, system Debian 64 (możliwość użycia dysków SSD np Crucial M4). Oczywiście nikt nie chce indexować takiej ilości danych co google ale taka miniaturka sprawnie działająca na cz mogła by się opierać...(IMG:style_emoticons/default/questionmark.gif) ?

Odpowiedzi

erix Zobacz profil	22.10.2012, 14:55:11 Post #2
Grupa: Moderatorzy Postów: 15 467 Pomógł: 1451 Dołączył: 25.04.2005 Skąd: Szczebrzeszyn/Rzeszów	Strukturę pól ustawia się w konfiguracji engine'u per projekt. A obsługa bazy danych dotyczy tylko indeksatora (czyt: materiał źródłowy). Zapytania budujesz najczęściej na bazie REST-owego API, które - wg kryteriów użytkownika - zwraca klucze podstawowe wyszukanych obiektów i - chyba, bo dobrze nie pamiętam - kawałki tekstu, które pasują do frazy. Jeśli mając gotowe IDki wyciąganie z bazy zajmuje ruski miesiąc, to ewidentnie z bazą jest coś nie tak. (IMG:style_emoticons/default/biggrin.gif)

Posty w temacie

www.aukcje.fm Polskie "google" jaka baza pod to 29.09.2012, 11:35:57

erix Sphinx. 29.09.2012, 15:14:05

www.aukcje.fm Sphinx działa pod php i w phyton. Jaka baza pod S... 29.09.2012, 15:20:12

mmmmmmm Zależy jakie informacje chcesz przechowywać. jeśli... 29.09.2012, 15:38:15

www.aukcje.fm Witam, Wiem o co chodzi, mam kilka portali i wysz... 29.09.2012, 17:59:02

erix To po co piszesz na forum? 1.10.2012, 11:51:01

www.aukcje.fm po to że chcemy mieć miliard rekordów stron w bazi... 1.10.2012, 18:58:59

sowiq CytatCzy ten ktoś powinien użyć sprawdzonej bazy t... 1.10.2012, 19:14:50

www.aukcje.fm A baza postgers Podobno ma wbudowaną funkcję obsł... 2.10.2012, 11:33:02

sowiq Co do Postgresa, to się nie wypowiem, bo po prostu... 2.10.2012, 11:42:33

xdev CytatIMO do takiej liczby rekordów najlepiej zaczą... 2.10.2012, 11:43:06

erix Nie rozumiem jednego - czemu upieracie się przy SQ... 2.10.2012, 13:08:27

sada NoSQL: HBase, może Mongo 5.10.2012, 17:47:47

www.aukcje.fm http://www.progresowi.pl/2011/11/10/porown...vs-mo... 6.10.2012, 23:18:12

xdev Każdy kto choć raz miał styczność z mongo i bazami... 8.10.2012, 14:58:33

darko Solr, polecam. Ma wiele gotowych mechanizmów, jaki... 8.10.2012, 16:48:55

www.aukcje.fm Hmm mongo chyba odpada. Do wyszukiwania będzie pra... 19.10.2012, 17:54:24

darko Solr nie korzysta z żadnej bazy danych (i m.in. dl... 22.10.2012, 14:48:35

erix Strukturę pól ustawia się w konfiguracji engine... 22.10.2012, 14:55:11

2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Tryb wyświetlania: Przełącz na: Standardowy · Przełącz na: Linearny+ · Drzewo

Aktualny czas: 10.10.2025 - 18:35

Hosting zapewnia

Forum PHP.pl