Post
#1
|
|
|
Grupa: Zarejestrowani Postów: 16 Pomógł: 4 Dołączył: 3.03.2008 Ostrzeżenie: (0%)
|
Witam
Mam problem z wyszukiwaniem polskich znaków w bibliotece zenda Zend_Search_Lucene. Ogólnie wyszukiwanie działa dosyć dobrze, problem jest tylko gdy w szukanej frazie znajdzie się choć jeden polski znak, wówczas Lucene zwraca mi 0 rekordów. Cała strona ustawiona jest na kodowanie utf-8, takie też podawane jest przy tworzeniu indexów przez luncene. Tworzenie index'ów wygląda w sposób przedstawiony poniżej, dane pobierane są z bazy i w pętl indexowane.
Szukanie zaś wygląda tak:
Wydaje mi się, że wszystko jest tak jak powinno być a mimo to nie działa. Może ktoś spotkał się już z takim problemem i go rozwiązał ? Jeśli tak to prosze o pomoc ? Z góry dzięki. |
|
|
|
![]() |
Post
#2
|
|
|
Grupa: Zarejestrowani Postów: 45 Pomógł: 1 Dołączył: 15.02.2006 Skąd: Zakrzów Ostrzeżenie: (0%)
|
Hm, chyba mam problem w jakiś sposób związany z polskimi znakami. Strona jest na kodowaniu iso8859-2, dodając dokument do indeksu podaję wejściowe kodowanie i w indeksie podejrzanym przez Luke wszystko jest na miejscu, polskie znaki ładne. I wyszukiwanie działa.
Ale dodawanie dokumentów do indeksu robi się coraz wolniejsze, im więcej ich już tam jest. Aktualnie wrzuciłem 5000 szt. i aktualizacja jednego trwa parę sekund. Wcześniej doszedłem do 10k i już były pady totalne. Podejrzewałem, że może Lucene zżera pamięć (limit 64mb) ale jeśli jakiś błąd php się pojawi, to jest to przekroczenie czasu wykonania (30sek.) w klasach Lucene związanych z obsługą plików indeksu. Sam indeks jest poprawny chyba, bo przez Luke mogę go otworzyć i wyszukiwać. Jedna rzecz jest dziwna: w indeksie jest 5k rekordów, zaś Luke pokazuje "Number of terms" = 14 000. Przy czym niektóre termy są poucinane na polskich znakach, czyli jeśli wejściowo było słowo "szkoła" to tam figuruje "szko". Czy to jest normalne? W dokumentacji piszą, że duża ilość termów może zamulać, ale czy to jest duża ilość? Pliki indeksu mają razem ledwo 2MB. |
|
|
|
kirex [php][zf] Zend_Search_Lucene 3.03.2008, 22:33:25
Sabistik Akurat nie miałem do czynienia jeszcze z tym kompo... 4.03.2008, 01:00:45
cyphelf Dla potrzeb indeksowania ustaw analizer:
KodZend_... 4.03.2008, 08:51:40
kirex Sabistik od początku wzorowałem się na tym poście ... 4.03.2008, 12:38:43
cyphelf Sprawdź zbudowany indeks programem Luke i zobacz c... 6.03.2008, 08:59:01
kirex cyphelf dzieki za podpowiedź, sprawdziłem i faktyc... 6.03.2008, 15:47:31
Martio Korzystam od dawna z Lucyny i niestety nie działa ... 8.03.2008, 20:38:31 ![]() ![]() |
|
Aktualny czas: 28.12.2025 - 00:46 |