Forum PHP.pl > Zend_Search

Pomoc - Szukaj - Użytkownicy - Kalendarz

Martio

17.03.2007, 18:39:34

Kiedyś był problem z polskimi znakami. Czy wiecie może czy ten błąd już poprawiono? W manualu nic nie jest napisane.

konys

17.03.2007, 20:33:13

Osobiście miałem niewielki problem z indeksowaniem niektórych polskich liter (ż,ś, może coś jeszcze) (korzystam z UTF-8). Poprawiłem w pliku Zend\Search\Lucene\Analysis\Analyzer\Common\Text.php funkcję

[PHP] pobierz, plaintext 
<?php
public function reset()
	{
		$this->_position = 0;
 
		if ($this->_input === null) {
			return;
		}
 
		// convert input into ascii
		$this->_input = iconv($this->_encoding, 'UTF-8'/*'ASCII//TRANSLIT'*/, $this->_input);
		$this->_encoding = 'UTF-8'/*'ASCII'*/;
	}
?>
[PHP] pobierz, plaintext

oraz w Zend\Search\Lucene\Search\QueryLexer.php zmieniłem 346 linijkę (w funkcji tokenize())

[PHP] pobierz, plaintext 
<?php
$strLength = iconv_strlen($inputString, 'UTF-8'/*$encoding*/);
?>
[PHP] pobierz, plaintext

Na szybkiego wydaje się działać, ale nie dałbym temu kodowi 100% gwarancji...

____________________________________________________
Znalazłem trochę lepsze rozwiązanie:

w bootstrap file dodaj następujące ustawienia:

[PHP] pobierz, plaintext 
<?php
mb_internal_encoding('UTF-8');
iconv_set_encoding('input_encoding', 'UTF-8');
iconv_set_encoding('output_encoding', 'UTF-8');
iconv_set_encoding('internal_encoding', 'UTF-8');
?>
[PHP] pobierz, plaintext

po wystartowaniu bazy:

[PHP] pobierz, plaintext 
<?php
$db->query('SET CHARACTER SET utf8');
?>
[PHP] pobierz, plaintext

w pliku Zend/Search/Lucene/Search/QueryParser.php zmień wartość atrybutu $_defaultEncoding

[PHP] pobierz, plaintext 
<?php
private $_defaultEncoding = 'UTF-8';
?>
[PHP] pobierz, plaintext

i przy indeksowaniu danych podawaj w jakim chcesz je wprowadzić kodowaniu - np.

[PHP] pobierz, plaintext 
<?php
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $contents, 'UTF-8'));
?>
[PHP] pobierz, plaintext

Powinno działać

Martio

26.04.2007, 09:34:00

Wszystko OK, należy tylko stosować funkcje do stringów z biblioteki Multibyte String, a więc np. zamiast strtolower zastosować mb_strtolower.

dafi

4.05.2010, 15:18:07

co do polskich znaków to rozwiązaniem jest zastąpienie defaultowego analysera który działa na zestawie znaków ASCII takim który działa z utf-8.

trzeba to wykonać zarówno przed indexowaniem jaki i wyszukiwaniem poleceniem :

[PHP] pobierz, plaintext 
Zend_Search_Lucene_Analysis_Analyzer::setDefault(new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8_CaseInsensitive());
[PHP] pobierz, plaintext

dla wyników które nie mają uwzględniać wielkości znaków lub :

[PHP] pobierz, plaintext 
Zend_Search_Lucene_Analysis_Analyzer::setDefault(new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8());
[PHP] pobierz, plaintext

dla tych co mają je uwzględniać.

Ewentualnie można jeszcze poprawić "podświetlanie wyników" by poprawnie obsługiwało polskie znaki.
Znowu winien jest analyser a dokładnie jego wywołanie bez parametru kodowania.

plik: Zend_Search_Lucene_Document_Html metoda: highlightExtended()

zamienić :

[PHP] pobierz, plaintext 
 $wordsToHighlightList[] = $analyzer->tokenize($wordString);
[PHP] pobierz, plaintext

na:

[PHP] pobierz, plaintext 
$wordsToHighlightList[] = $analyzer->tokenize($wordString,'UTF-8');
[PHP] pobierz, plaintext

[ZF ver: 1.10.3]

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.