Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

> Jak sprawdzić czy ciąg występuje jako całe słowo?, Wyrażenia regularne na ciągach UTF-8
latet
post
Post #1





Grupa: Zarejestrowani
Postów: 37
Pomógł: 0
Dołączył: 2.10.2005

Ostrzeżenie: (0%)
-----


Witam,

Muszę napisać wyrażenia regularne (lub funkcję), które sprawdzi czy dany ciąg znaków występuje w przeszukiwanym dużym tekście jako pełny wyraz.

Czyli jeśli szukamy ciagu "przy" to interesuje nas słowo "przy", a nie słowo "przypadek".

Myślę, że najprościej będzie zdefiniować z czym może sąsiadować taki ciąg, aby był uznany za pełny wyraz.

Do głowy mi przychodzi, że sąsiadować może z:
- początkiem stringu
- końcem stringu
- spacjami oczywiście, w tym innymi znakami tego rodzaju, np. \t, \n, twarda spacja itp
- przecinkiem
- kropką
- średnikiem
- dwukorpkiem
- apostrofami, cudzysłowiami
- nawiasami wszelkiego typu
- wszelkimi znaczakmi, kóre na klawiaturze wpisuje się przez SHITF-cyfra
- pozostałymi znaczkami typu + - = \ / ? ~
- cyframi (opcjonalnie)

Ta lista jest oczywiście umowna i do ustalenia, probelm mam z tym jak to w ogóle napisać? Pewnie funkcja mb_eregi() będzie tu sendem sprawy.

Trudności mam dwie:
1) nie "czuję" wyrażeń regularnych kompletnie (IMG:http://forum.php.pl/style_emoticons/default/sadsmiley02.gif)
2) teksty, które mam obsłużyć są w UTF-8, i są w nich egzotyczne języki, tak więc odpada zdefiniowanie z czym szukany ciąg nie może sąsiadować. Trzeba określić z czym może - i to określić to w UTF-8.

Plik .php jest jako taki także kodowany w UFT-8.

Wielkie dzięki!

latet

Ten post edytował latet 31.12.2005, 14:23:43
Go to the top of the page
+Quote Post
 
Start new topic
Odpowiedzi
latet
post
Post #2





Grupa: Zarejestrowani
Postów: 37
Pomógł: 0
Dołączył: 2.10.2005

Ostrzeżenie: (0%)
-----


Dzięki Radarek, ale to nie działa dobrze (być może z powodu UTF-8 lub wstawiania zmiennej w środek wyrażenia reg.).

Konkretnie, zrobiłem to tak:

  1. <?php
  2.  
  3. if (preg_match('/b' . $slowo . 'b/u', $tekst))
  4.  
  5. ?>


Działa... ale nie do końca. Np. w ogóle nie znajduje nic jeśli poda się słowo zawierających polskie litery (lub inne narodowe spoza ASCII). Z kolei gdy zapodam tylko 1 literę, np. "w" to znajduje wszystkie słowa zakończone na "w". Coś tu więc nie gra.
Dla słów bez znaków narodowych działa w miarę OK. Próbowałem bez parametru "u" i to niczego (!) nie zmienia.

Na grupie o php Mr. PorneL napisał mi, że nie wolno tak po prostu wstawiać zmiennej do wnętrza wyrażenia regularnego. A ja właśnie muszę szukać słowa podanego przez użytkownika, więc muszę jakoś tam wstawić zmienną. Tylko jak?

Nie wiem też kompletnie dlaczego w ogóle nie działa mi to:

  1. <?php
  2.  
  3. if (mb_eregi('/b' . $slowo . 'b/', $tekst))
  4.  
  5. ?>


skoro wyżej jest to:

  1. <?php
  2.  
  3. mb_internal_encoding("UTF-8");
  4. mb_regex_encoding("UTF-8");
  5.  
  6. ?>


poza tym świetnie działa to:

  1. <?php
  2.  
  3. mb_strtolower($slowo, "UTF-8"));
  4. mb_ereg_replace('"', '', $slowo);
  5.  
  6. ?>


Dzięki,

latet

Ten post edytował latet 31.12.2005, 17:03:40
Go to the top of the page
+Quote Post

Posty w temacie


Reply to this topicStart new topic
2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Aktualny czas: 2.10.2025 - 16:51