Forum PHP.pl

Forum PHP.pl > Inne > Hydepark

Algorytm podobienstwa

nospor Zobacz profil	30.01.2015, 10:41:10 Post #1
Grupa: Moderatorzy Postów: 36 561 Pomógł: 6315 Dołączył: 27.12.2004	Znacie jakieś w miare dobra algorytmy na znajdywanie podobienstwa dwóch nazwa składających się z wielu wyrazów? Podobienstwo na zasadzie: kapitaliki, jedno slowo podobne edna litera inna, znaki interpunkcyjne inne Najlepiej jakby dało się do zrobić na poziomie zapytania do bazy. Jak nie to obróbka w php.

2 Stron

1 2 >

Start new topic

Odpowiedzi (1 - 19)

r4xz Zobacz profil	30.01.2015, 10:52:04 Post #2
Grupa: Zarejestrowani Postów: 673 Pomógł: 106 Dołączył: 31.12.2008 Ostrzeżenie: (0%)	Może algorytm Levenshtein distance, nawet znajdzie się coś do tego w sql (nie sprawdzałem jak działa). Nigdy też tego nie implementowałem, a więc moja wiedza jest czysto teoretyczna (więc pewnie i znikoma) na temat tego algorytmu, ale spróbować zawsze warto.

nospor Zobacz profil	30.01.2015, 10:58:39 Post #3
Grupa: Moderatorzy Postów: 36 561 Pomógł: 6315 Dołączył: 27.12.2004	No właśnie ta nazwa mi coś chodziła po głowie (IMG:style_emoticons/default/smile.gif) Dzięki za linki, jak już coś mi się uda zrobić dam znać. Jak zwykle jeśli ktoś ma coś do dodania to zapraszam (IMG:style_emoticons/default/smile.gif)

redeemer Zobacz profil	30.01.2015, 11:18:47 Post #4
Grupa: Zarejestrowani Postów: 915 Pomógł: 210 Dołączył: 8.09.2009 Skąd: Tomaszów Lubelski/Wrocław Ostrzeżenie: (0%)	http://php.net/manual/en/function.levenshtein.php @nospor: piszesz ceneo2? :-)

nospor Zobacz profil	30.01.2015, 13:42:01 Post #5
Grupa: Moderatorzy Postów: 36 561 Pomógł: 6315 Dołączył: 27.12.2004	Nie, nie piszę ceneo2 (IMG:style_emoticons/default/smile.gif) Widzę łączysz wątki (IMG:style_emoticons/default/wink.gif) No dobra, ale sam levenshtein nie da rezultatow, jakie oczekuje. Zalozmy ze porownuje slowa: echo $lev = levenshtein('Blabla', 'Blabla sp zoo'); echo $lev = levenshtein('Blabla', 'Bleble'); To wg lev, blizsze mi bedzie Bleble, podczas gdy wg mnie bliższe ma byc Blabla sp zoo. Trzeba będzie albo wzbogacić algorytm o levenshteina i cos jeszcze lub moze jest coś jeszcze innego?

redeemer Zobacz profil	30.01.2015, 13:46:59 Post #6
Grupa: Zarejestrowani Postów: 915 Pomógł: 210 Dołączył: 8.09.2009 Skąd: Tomaszów Lubelski/Wrocław Ostrzeżenie: (0%)	Może jakoś zmixować to z https://en.wikipedia.org/wiki/Hunt%E2%80%93McIlroy_algorithm

pyro Zobacz profil	30.01.2015, 13:48:53 Post #7
Grupa: Zarejestrowani Postów: 2 148 Pomógł: 230 Dołączył: 26.03.2008 Ostrzeżenie: (0%)	Proponuję najpierw sprecyzować jakiego podobieństwa albo przynajmniej przybliżonego algorytmu jakiego oczekujesz oraz przykłady I/O jakich byś oczekiwał rezultatów, bo "chcę jakieś określanie podobieństwa, dostałem levenshtein, ale nie o takie podobieństwo mi chodziło" naprawdę nie mówi absolutnie nic (IMG:style_emoticons/default/wink.gif)

nospor Zobacz profil	30.01.2015, 13:56:22 Post #8
Grupa: Moderatorzy Postów: 36 561 Pomógł: 6315 Dołączył: 27.12.2004	@pyro tak masz racje. Sam czekam jeszcze na konkretne przykłady. Chciałem jednak w miedzyczasie zasięgnąć już jakieś teorii (IMG:style_emoticons/default/smile.gif)

sazian Zobacz profil	30.01.2015, 20:14:19 Post #9
Grupa: Zarejestrowani Postów: 1 045 Pomógł: 141 Dołączył: 19.09.2006 Skąd: B-tów Ostrzeżenie: (0%)	$p=0; similar_text("Blabla","Blabla sp zoo",$p); var_dump($p); daje 63% similar_text("Blabla","Blable",$p); var_dump($p); daje 83%

nospor Zobacz profil	13.02.2015, 09:54:20 Post #10
Grupa: Moderatorzy Postów: 36 561 Pomógł: 6315 Dołączył: 27.12.2004	@sazian, tak, juz testowalem tez similar text. Jak dostane konkretne dane to bede testowal najlepsze rozwiązanie (IMG:style_emoticons/default/smile.gif) edit: dobra, dzieki panowie. Mix levensteina z rozbijaniem na słowa działa niemalże idealnie. Na jakies 95% (IMG:style_emoticons/default/smile.gif)

aniolekx Zobacz profil	13.02.2015, 10:05:09 Post #11
Grupa: Zarejestrowani Postów: 340 Pomógł: 46 Dołączył: 31.07.2009 Skąd: A Ostrzeżenie: (0%)	to może pochwal się dokładnym rozwiązaniem ¬¬

nospor Zobacz profil	16.02.2015, 08:49:31 Post #12
Grupa: Moderatorzy Postów: 36 561 Pomógł: 6315 Dołączył: 27.12.2004	Ok, postaram sie po weekendzie przygotowac paczke (IMG:style_emoticons/default/smile.gif) edit: https://github.com/nospor/similarity

kilab Zobacz profil	17.02.2015, 08:34:51 Post #13
Grupa: Zarejestrowani Postów: 180 Pomógł: 19 Dołączył: 4.11.2007 Ostrzeżenie: (0%)	Dzięki @nospor za paczkę, robi dobrą robotę (IMG:style_emoticons/default/smile.gif) Ja akurat właśnie muszę zrobić odnajdywanie podobnych słów, ale na poziomie bazy i korzystając z okazji, że temat w offtopie, mam do was pytanie. Najwyżej zgarnę srogie baty (IMG:style_emoticons/default/biggrin.gif) Otóż tak. Mam dwie identyczne bazy w MySQL i PostgreSQL na których badam wydajność żeby ostatecznie po tygodniach testów pozostać na MySQL lub przejść na PostgreSQL. Do MySQL dodałem funkcję wykorzystującą algorytm levenshteina znalezioną tu: http://stackoverflow.com/questions/1390988...nction-in-mysql która działa, ale przy tabeli 40 tys. rekordów wykonanie najprostszego zapytania wykorzystującego tę funkcję trwa ok 15 s. Docelowo ma on działać na trochę większej tabeli, ok. 250 tys. rekordów więc rozwiązanie raczej marne. Na ogromny plus wychodzi w tej sytuacji PostgreSQL, w którym wykonanie zapytania wykorzystującego funkcję levenshteina z modułu fuzzystrmatch trwa zaledwie 0,5 s. na takiej samej liczbie rekordów (40 tys.). No i to pytanie docelowe - czy to wydaje się być realne i normalne, że różnica czasu w wykonaniu bardzo podobnych do siebie zapytań na dwóch tych bazach jest taka duża?

nospor Zobacz profil	17.02.2015, 08:41:24 Post #14
Grupa: Moderatorzy Postów: 36 561 Pomógł: 6315 Dołączył: 27.12.2004	Skoro w PostgreSQL korzystasz z gotowej wbudowanej biblioteki to tak, jest duża szansa że bedzie działać ona szybciej niż jakiś kod napisany przez kogos w necie. Też chciałem robić to na poziomie bazy. Jednak szybko się okazało, że sam levenshtein jest niewystarczający, wiec musiałem się przerzucić na php. Moge dodać, że sprawdzenie ponad 200tys tekstow trwa około 5 sekund

com Zobacz profil	17.02.2015, 13:17:21 Post #15
Grupa: Zarejestrowani Postów: 3 034 Pomógł: 366 Dołączył: 24.05.2012 Ostrzeżenie: (0%)	skoro w hydeparku to pozwolę sobie na mały offtop ta bółka przez ó to mnie razi (IMG:style_emoticons/default/tongue.gif) a tak generalnie możesz dorzucić na stopkę, może się komuś przydać (IMG:style_emoticons/default/biggrin.gif)

nospor Zobacz profil	17.02.2015, 13:22:42 Post #16
Grupa: Moderatorzy Postów: 36 561 Pomógł: 6315 Dołączył: 27.12.2004	Z tą bółką to na tym polegał dowcip (IMG:style_emoticons/default/biggrin.gif)

com Zobacz profil	17.02.2015, 13:28:08 Post #17
Grupa: Zarejestrowani Postów: 3 034 Pomógł: 366 Dołączył: 24.05.2012 Ostrzeżenie: (0%)	hahaha ok (IMG:style_emoticons/default/biggrin.gif) znaczy się wiedziałem, że to dla jaj napisane ale rzuciło mi się strasznie w oczy (IMG:style_emoticons/default/wink.gif)

Crozin Zobacz profil	17.02.2015, 13:33:17 Post #18
Grupa: Zarejestrowani Postów: 6 476 Pomógł: 1306 Dołączył: 6.08.2006 Skąd: Kraków Ostrzeżenie: (0%)	Skoro będziesz tego potrzebował do jakiegoś wyszukiwania to dlaczego nie skorzystasz z narzędzi do wyszukiwania, np. SOLR/ElasticSearch (oba działają na Lucene)? Przygotowując odpowiednie indeksy, które będą działały na znormalizowanych wyrazach otrzymasz dużo lepsze wyniki. Ten post edytował Crozin 17.02.2015, 13:33:32

Pyton_000 Zobacz profil	17.02.2015, 13:33:24 Post #19
Grupa: Zarejestrowani Postów: 8 068 Pomógł: 1414 Dołączył: 26.10.2005 Ostrzeżenie: (0%)	Ale Ty @com jesteś łatwowierny ;P @nospor zrobił byka i żeby się obronić napisał że niby celowe (IMG:style_emoticons/default/wink.gif) A że Mod to trzeba się zgadzać ;P I Banik ;D

nospor Zobacz profil	17.02.2015, 13:35:51 Post #20
Grupa: Moderatorzy Postów: 36 561 Pomógł: 6315 Dołączył: 27.12.2004	@Crozin tam gdzie to wrzucam, nie miałem dostępu do Lucene @Pyton prorok jak czy co.... (IMG:style_emoticons/default/biggrin.gif)

« Następny starszy · Hydepark · Następny nowszy »

2 Stron

1 2 >

Reply to this topic

Start new topic

2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Tryb wyświetlania: Przełącz na: Standardowy · Linearny+ · Przełącz na: Drzewo

Śledź ten temat · Wyślij temat na e-mail · Wydrukuj ten temat · Subskrybuj to forum

Aktualny czas: 24.12.2025 - 09:39

Powered By IP.Board © 2025 IPS, Inc.
All changes by PHP.pl Administrators

Hosting zapewnia

NQ.pl hosting, trac, svn