Forum PHP.pl > [PHP] Efektywne przeszukiwanie dużej tablicy

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: [PHP] Efektywne przeszukiwanie dużej tablicy

loocek

4.02.2023, 14:25:59

Hej,
Mam problem z przeszukaniem dużej tablicy. Tzn. mam w bazie ok 230k rekordów które pobieram do tablicy i następnie przez formularz na stronie pobieram znowu z 10k rekordów do sprawdzenia i teraz muszę zwyczajnie sprawdzić czy te z formularza występują w bazie. No i robiąc to najprościej w pętli czyli sprawdzając każdy z tych 10k czy jest w bazie 230k długo trwa. Sprawdzenie raptem 2k (a nie 10k) zajmuje już 18sek. No a 10k ? a może i 50k chcąc sprawdzić ? przecież to się będzie wykonywało z 1min...2min - bez sensu.

Czy znacie jakiś sposób na jak największe przyspieszenie tego sprawdzania ? Jakiś algorytm albo funkcje ?
pozdrawiam

trueblue

4.02.2023, 14:44:34

Jaka to baza? Co masz na myśli pisząc rekord - jedno pole, kilka pól, jakiego typu? Co dokładnie porównujesz? Czy na tabeli są indeksy?

Salvation

4.02.2023, 16:21:38

Może po prostu przenieś przeszukiwanie na bazę - która ma wbudowane mechanizmy optymalizacyjne - zamiast przeszukiwać to w PHP?

loocek

4.02.2023, 21:12:47

Jest to MySQL, rekord to mam na myśli jedna z kolumn ze stringami tekstowymi (VARCHAR), tak na tabeli jest indeks.
I muszę sprawdzić czy każdy z tych stringów co ich jest 10k które podaję przez formularz występuje w tej bazie 230k czy nie.

Żle się wyraziłem

Rekord to oczywiście jedna z wartości w tej kolumnie VARCHAR ze zwykłymi stringami tekstowymi.

trueblue

5.02.2023, 13:35:22

Pierwszą metodą jest użycie klauzuli IN. Ale tu ograniczony będziesz zmienną max_allowed_packet (co tu ma związek z długością zapytania).
Drugą metodą, szybszą niż IN w przypadku dużej ilości danych, będzie stworzenie tymczasowej tablicy z indeksem i zapytanie pomiędzy tymi dwiema tablicami.

loocek

5.02.2023, 15:29:35

Czy możesz rozwinąć choćby tą drugą opcję która ma być szybsza ?

trueblue

5.02.2023, 19:07:44

1. Tworzysz tymczasową tablicę z polem VARCHAR i indeksem (być może unikalnym) - to możesz zrobić raz, ręcznie.
2. Wstawiasz do niej dane z formularza (INSERT z wieloma wartościami https://www.mysqltutorial.org/mysql-insert-multiple-rows/, ale niekoniecznie wszystkie wartości - patrz: max_allowed_packet).
3. Robisz JOIN
4. Usuwasz dane.

viking

5.02.2023, 19:18:15

Do takich celów można też przemyśleć silnik memory.

loocek

5.02.2023, 22:34:56

Na razie ta część MySQL:
Stworzyłem drugą tabelkę lucek_temp do której wrzuciłem 2000 tytułów. I teraz chciałbym uzyskać listę tytułów których nie ma w tej drugiej duzej tabelce. Zatem robię takiego selecta:
select lucek_temp.tytul from lucek_temp join wszystkie ON wszystkie.tytul != lucek_temp.tytul;
i to zapytanie trwa ok 30 sec. po czym proces sam się ubija i wywala mnie z CLI Mysql (bo na raie tam testuję).

Co robię nie tak ?

trueblue

6.02.2023, 07:58:34

[SQL] pobierz, plaintext 
SELECT lt.tytul
FROM lucek_temp AS lt
LEFT JOIN wszystkie AS w ON w.tytul=lt.tytul
WHERE w.tytul IS NULL;
[SQL] pobierz, plaintext

Tym zapytaniem uzyskasz wpisy, których brak we `wszystkie`.

Założyłeś indeks na `tytul` w `lucek_temp`?

loocek

6.02.2023, 11:13:08

Ok, ten join śmiga

Tzn zrobiłeś małą literówkę więc powinien wyglądać tak:

[SQL] pobierz, plaintext 
SELECT lt.tytul
FROM lucek_temp AS lt
LEFT JOIN wszystkie ON w.tytul=lt.tytul
WHERE w.tytul IS NULL;
[SQL] pobierz, plaintext

I bez indexów (na polach tytul w obu tabelach) zapytanie trwało 23sek. Natomiast po zrobieniu indexów zapytanie trwa... 0 sec.

Zatem dorobię sobie jeszcze ten multiinsert rows z formularza PHP do Mysql i wszystko będzie śmigać.

Nie truję już. Dzięki wielkie za pomoc.

trueblue

6.02.2023, 11:51:04

A w jaki celu robisz to porównanie? Chcesz poinformować użytkownika ile jego danych zostanie dopisanych, etc.?

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.