Forum PHP.pl

Forum PHP.pl > Forum > Bazy danych > MySQL

similar_text w MySQL

#luq Zobacz profil	20.05.2010, 16:10:00 Post #1
Grupa: Zarejestrowani Postów: 589 Pomógł: 91 Dołączył: 22.05.2008 Skąd: Gliwice Ostrzeżenie: (0%)	Potrzebuje na poziomie bazy wyciągnąć rekordy w których jedno z pól jest zbliżone w 90% do podanego ciągu. Tak w PHP jest funckja similar_text jednak to powinno się robić na poziomie bazy. Chodzi o coś takiego: [SQL] pobierz, plaintext SELECT foo.id FROM foo WHERE SIMILAR( foo.name, 'jakis string' ) > 0.9 [SQL] pobierz, plaintext tyle, że takiej funkcji w MySQL nie ma (IMG:style_emoticons/default/winksmiley.jpg) Da się to w ogóle zrobić na MySQL`u? Na forum znalazłem identyczny temat http://forum.php.pl/index.php?showtopic=70797 jednak nie rozwiązany...

Start new topic

Odpowiedzi (1 - 9)

wookieb Zobacz profil	20.05.2010, 16:19:50 Post #2
Grupa: Moderatorzy Postów: 8 989 Pomógł: 1550 Dołączył: 8.08.2008 Skąd: Słupsk/Gdańsk	W mysql jest wyszukiwanie pełnotekstowe (FULLTEXT) dla tabel na silniku MyIsam. Na silniku InnoDb powinieneś użyć sphinxa. Zapomnij o soundex, służy do czegoś innego. Levensthein jest czymś podobnym ale potrzebuje funkcji składowanej http://codejanitor.com/wp/2007/02/10/leven...tored-function/ Podpowiedź aby zainstalować procedurę. [SQL] pobierz, plaintext DELIMITER \|; [KOD PROCEDURY] DELIMITER ; [SQL] pobierz, plaintext

#luq Zobacz profil	20.05.2010, 20:45:49 Post #3
Grupa: Zarejestrowani Postów: 589 Pomógł: 91 Dołączył: 22.05.2008 Skąd: Gliwice Ostrzeżenie: (0%)	Super. Dzięki! Btw. rozumiem, że to inne algorytmy są, bo dla [PHP] pobierz, plaintext similar_text( 'abrakadabra', 'kadabra', $procent ); echo $procent; [PHP] pobierz, plaintext dostaje: 77,(7) natomiast dla: [SQL] pobierz, plaintext SELECT LEVENSHTEIN_RATIO( 'abrakadabra', 'kadabra' ); [SQL] pobierz, plaintext dostaje: 64

wookieb Zobacz profil	20.05.2010, 20:58:54 Post #4
Grupa: Moderatorzy Postów: 8 989 Pomógł: 1550 Dołączył: 8.08.2008 Skąd: Słupsk/Gdańsk	Jest to różnica algorytmów. similar_text korzysta z algorytma Olivera , drugi Levenshteina Wyniki, które podałeś są oczywiste. Może powiedz co chcesz uzyskać to dobierzemy coś dla Ciebie.

#luq Zobacz profil	20.05.2010, 23:06:33 Post #5
Grupa: Zarejestrowani Postów: 589 Pomógł: 91 Dołączył: 22.05.2008 Skąd: Gliwice Ostrzeżenie: (0%)	W sumie to dla mnie chyba bez różnicy który algorytm, wystarczy skalibrować przy ilu % otrzymuje dane które są na tyle podobne, że możliwe, że to literówka.

wookieb Zobacz profil	20.05.2010, 23:12:22 Post #6
Grupa: Moderatorzy Postów: 8 989 Pomógł: 1550 Dołączył: 8.08.2008 Skąd: Słupsk/Gdańsk	Przy prostych literówkach lepiej nie porównywać procentowo tylko po prostu liczbowo. Odległość levenstheina mówi ile zmian musisz dokonać aby jedno słowo zamienić w drugie. Więc myślę że 3 (max 4) są w zupełności zadowalające.

#luq Zobacz profil	20.05.2010, 23:29:44 Post #7
Grupa: Zarejestrowani Postów: 589 Pomógł: 91 Dołączył: 22.05.2008 Skąd: Gliwice Ostrzeżenie: (0%)	Sprawdzę. Na pewno będzie to szybsze (IMG:style_emoticons/default/smile.gif) Nie będę zakładać nowego tematu, ale mam kolejne zapytanie: [SQL] pobierz, plaintext SELECT id, name, LEVENSHTEIN_RATIO( name, '/tu mam zmienna/' ) AS similar FROM foo WHERE LEVENSHTEIN_RATIO( name, '/tu mam zmienna/' ) >= 90 GROUP BY id ORDER BY similar DESC [SQL] pobierz, plaintext i ogólnie chodzi mi o to, że hm... funkcja LEVENSHTEIN_RATIO jest wykonywana 2 razy tak? Czy nie wiem jest ten wynik jakoś cachowany w bazie? Jeśli nie to jak zrobić tak aby nie liczyć tego 2 razy bo przy kilku tys. rekordów to troszkę trwa. Nie sprawdzałem (jest późno a mnie się oczy kleją) ale podzapytanie dało by chyba radę. Jakieś inne rozwiązanie?

wookieb Zobacz profil	20.05.2010, 23:44:59 Post #8
Grupa: Moderatorzy Postów: 8 989 Pomógł: 1550 Dołączył: 8.08.2008 Skąd: Słupsk/Gdańsk	Szczerze to nie chce mi się teraz kombinować ale wystarczy użyć having albo zmiennej. Co lepiej, niestety za późno by testować (IMG:style_emoticons/default/smile.gif)

#luq Zobacz profil	21.05.2010, 09:54:00 Post #9
Grupa: Zarejestrowani Postów: 589 Pomógł: 91 Dołączył: 22.05.2008 Skąd: Gliwice Ostrzeżenie: (0%)	Okej to tak, zwykła odległość Levenstheina przy małych stringach powinna być mała. [SQL] pobierz, plaintext SELECT authorName FROM `msh_name_author` WHERE LEVENSHTEIN( authorName, 'kant' ) < 4 [SQL] pobierz, plaintext Dostaje: Kod Ray TEST kant kant. Dla warunku < 3 wyniki są jak dla mnie zadowalające Kod kant kant. Ale przy długich stringach max 2 zmieny to imho mało, więc chyba zostanę jednak na procentowej wersji. Użyłem zmiennej i HAVING i nie zauważam zmniejszenia czasu wykonani, może jednak to nie jest liczone 2 razy? [SQL] pobierz, plaintext SELECT authorId, authorName, ( @t := LEVENSHTEIN_RATIO( authorName, 'kant' ) ) AS similar FROM msh_name_author HAVING similar > 70 [SQL] pobierz, plaintext Jeszcze jedna sprawa - dla tabelki w której mam ~1200 rekordów to jest strasznie wolne (~7 sec) więc pomyślałem, żeby nie mielić całej tabelki tylko rekordy o inentycznej pierwszej literze, wygląda to tak: [SQL] pobierz, plaintext SELECT authorId, authorName, ( @t := LEVENSHTEIN_RATIO( authorName, 'kant' ) ) AS similar FROM ( SELECT authorId, authorName FROM msh_name_author WHERE SUBSTRING( authorName, 1, 1 ) = 'k' ) AS foo HAVING similar >70 [SQL] pobierz, plaintext Prawie przy 'k' wykonuje się ~0.2 sec więc jest okej. Przy szukaniu literówek to chyba dobry pomysł bo raczej rzadko robi się literówkę w pierwszym znaku, chyba że ma ktoś inny pomysł? Ten post edytował #luq 21.05.2010, 09:57:15

wookieb Zobacz profil	21.05.2010, 10:16:56 Post #10
Grupa: Moderatorzy Postów: 8 989 Pomógł: 1550 Dołączył: 8.08.2008 Skąd: Słupsk/Gdańsk	Ten pomysł jest ok, ale stworzyłbym dodatkową kolumne przedstawiajaca ilosc znakow w słowie. Dzięki temu np jak szukasz słowo "test" to założysz warunek [SQL] pobierz, plaintext dlugosc_slowa BETWEEN 2 AND 6 [SQL] pobierz, plaintext co jeszcze lepiej ograniczy wyniki Jeżeli chcesz szukać jeszcze inaczej zainteresuj się n-gramami.

« Następny starszy · MySQL · Następny nowszy »

Reply to this topic

Start new topic

2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Tryb wyświetlania: Przełącz na: Standardowy · Linearny+ · Przełącz na: Drzewo

Śledź ten temat · Wyślij temat na e-mail · Wydrukuj ten temat · Subskrybuj to forum

Aktualny czas: 20.12.2025 - 15:03

Powered By IP.Board © 2025 IPS, Inc.
All changes by PHP.pl Administrators

Hosting zapewnia

NQ.pl hosting, trac, svn