Drukowana wersja tematu

Kliknij tu, aby zobaczyć temat w orginalnym formacie

Forum PHP.pl _ Pro _ Cache - jak, czym, kiedy

Napisany przez: nospor 22.08.2012, 10:48:33

Tematów o cache było sporo, jednak nie było jednego ogólnego, gdzie by były zawarte ogólne wskazówki.

Zapraszam do dyskusji

Napisany przez: mrWodoo 22.08.2012, 17:39:30

Ok to pierwsze pytanie, własne czy gotowe rozwiązanie?
Ja do projektu wybrałem własne, a oparłem je na obiektach cache'u. Tzn mam klasę 'reprezentant', która zawiera właności jak

CODE

timeout - ile s. po creationTime (patrz niżej) cache staje się 'przeterminowany'
creationTime - unixowy czas kiedy cache został utworzony
cacheData - dane cache'a

metoda
isTimeout() - zwraca true jesli cache jest 'przeterminowany' lub false jesli nie
get( wlasnosc ) - zwraca jedna z wlasnosci, ktorej nazwa zaczyna sie od `_`, zeby nie pisac metod getCreationTime, getCacheData itd.

mam też klasę 'menedżer', która służy do tworzenia cache'a i wczytywania oraz usuwania. klasa kompletnie statyczna
metody

[PHP] pobierz, plaintext 
create( nazwa, dane, timeout )
 i ta metoda tworzy obiekt klasy 'reprezentant' i następnie w postaci ZSERIALIZOWANEJ zapisuje go do katalogu Storage/Cache/$nazwa.php
 
read( nazwa ) - wiadome co robi, wczytuje (sprawdza czy istnieje najpierw) plik cache'u z zserializowanym obiektem, przywracam go do 'obiektowej' postaci poprzez unserialize i zwracam (ofc. jeszcze sprawdzenie czy to co chcę zwrócić, to jest instancja klasy 'reprezentant')
 
delete( nazwa ) wiadome
 
init() - sprawdza uprawnienia i rzuca wyjątkami ^^
[PHP] pobierz, plaintext

klasy mają nazwy angielskie, ale to nie ma znaczenia.

zastanawiałem się nad cache'em w bazie, to samo co wyżej, tylko zamiast w pliku to obiekt zapisany w bazie ale jakoś mnie to nie przekonuje.

Napisany przez: erix 23.08.2012, 10:00:49

Cytat

Ok to pierwsze pytanie, własne czy gotowe rozwiązanie?
Ja do projektu wybrałem własne, a oparłem je na obiektach cache'u. Tzn mam klasę 'reprezentant', która zawiera właności jak

Bardziej istotna jest logika, która zarządza przetrzymywaniem i wykorzystywaniem obiektów niż same obiekty.

Cytat

zastanawiałem się nad cache'em w bazie, to samo co wyżej

W jakim celu? Bo ja jakoś sensu nie dostrzegam.

Cytat

tylko zamiast w pliku to obiekt zapisany w bazie ale jakoś mnie to nie przekonuje.

I słusznie. Po co katować bazę, skoro można trzymać np. w pamięci RAM?

Napisany przez: mrWodoo 23.08.2012, 10:14:19

a o MemCache pierwsze słyszę, z tym że, cache jest wtedy tracony przy restarcie systemu/serweru a czasami NAPRAWDĘ ważne i unikatowe rzeczy mogą być w cache'u, więc będzie trzeba zaimpletmentować drugi typ cachea

Napisany przez: erix 23.08.2012, 11:41:16

Cache nie jest po to, żeby coś przechowywać. Jeśli masz takie założenie, że jest storagem, przeprojektuj aplikację, bo są błędne założenia.

Napisany przez: mrWodoo 23.08.2012, 12:34:16

Ok, nie ma innego sposobu na MemCache w PHP oprócz rozszerzenia Memcache(d)?

Napisany przez: erix 23.08.2012, 12:37:07

Masz jeszcze shm dostępne w akceleratorach.

Z tą różnicą, że każda instancja interpretera (np. kilka responderów z FastCGI), to każdy z nich posiada osobną pulę cache'u.

Napisany przez: starach 24.08.2012, 22:48:40

A nie da się zrobić z pamięci wirtualnego katalogu i przechowywać w nim plików? Czy to po prostu będzie wolniejsze niż MemCache?

Napisany przez: lukaskolista 27.08.2012, 08:07:31

Memcache to nie tylko przechowywanie danych w pamieci, to takze ich hierarchizacja, dane czesciej wykorzystywane (odczytywane) sa wyzer w hierarchi, natomiast dane najrzadziej wykorzystywane sa najnizej. Jezeli pamiec przeznaczona na cache sie konczy, to podczas zapisu nowych danych do cache'u dane, ktore sa najnizej w hierarchii sa usuwane tak, aby nie przekroczyc limitu pamieci. To jedna z zalet memcache, moze ma tez inne.

Napisany przez: erix 27.08.2012, 10:23:34

Cytat

A nie da się zrobić z pamięci wirtualnego katalogu i przechowywać w nim plików?

Da się (ramdrive). Tylko że to jest rozwiązanie uzależnione od stricte jednej maszyny.

Cytat

To jedna z zalet memcache, moze ma tez inne.

Skalowalność, możliwość uniezależnienia od maszyny (ergo: rozbisz klaster z memcached, który działa na maszynach ze słabymi CPU, bez HDD, z systemem ładowanym z Sieci).

Napisany przez: mrWodoo 27.08.2012, 15:01:31

czy każdy serwer z linuxem ma MemCache? np taki hosting z webd czy też ma, bo mam XAMPPA (niestety, muszę przez jakiś czas pod Windowsem pracować) i już XAMPP nie ma memcache ;(

Napisany przez: d3ut3r 28.08.2012, 04:18:59

Na Windows również możesz zainstalować memcache.

Napisany przez: erix 28.08.2012, 12:02:44

Cytat

czy każdy serwer z linuxem ma MemCache?

Może mieć. Natomiast rzadko który hosting coś takiego posiada. Na dedyku sobie bez problemu doinstalujesz, natomiast na współdzielonych chyba tylko linuxpl.com udostępnia.

Napisany przez: wizu 2.09.2012, 15:22:24

Tak dla uściślenia, to zamiast memcache lepiej postawić sobie memcached. To są dwa różne systemy i trochę różnią się od siebie.

Napisany przez: murwazy 8.09.2012, 11:53:24

Cytat(erix @ 28.08.2012, 13:02:44 )

Może mieć. Natomiast rzadko który hosting coś takiego posiada. Na dedyku sobie bez problemu doinstalujesz, natomiast na współdzielonych chyba tylko linuxpl.com udostępnia.

http://www.megiteam.pl/ ofetuje apc i memcache na hostingach wspoldzielonych

Napisany przez: babejsza 1.12.2013, 18:10:52

Hej,

pytanie do osób, które mają do czynienia na co dzień z cachowaniem, w szczególności z cachowaniem wyników zapytań. Wiem, że ten temat nie jest jednoznaczny więc i sama odpowiedź może być trudna, ale może ktoś pracuje w podobnej specyfice baz i jego doświadczenia będą bardzo pomocne.

Mianowicie w obecnej strukturze aplikacji posiadamy w bazie około 180 tabel o całkowitym rozmiarze ~20GB i objętości około 50 mln rekordów. Aplikacja jest narzędziem "ERP'owym" chodź ma szersze zastosowania niż te wynikające z definicji ERP, bo posiada modułu komunikacyjne, księgowe, kadrowe, zarządcze itp. Do tej pory jedyne cachowanie jakie było stosowane to cache dotyczący opcode, ale w związku z coraz bardziej rozszerzającą się bazą danych staje przed nami zadanie rozważenia i ew. wprowadzenia cachowania wyników zapytań do bazy.

Dla mnie największym problemem czy raczej pytaniem jest kwestia rozsądnego zarządzania cache. W tej chwili korzystamy z AWS aplikacja stoi wraz z bazą i storage na jednej instancji medium. Na razie nie chcę tego za bardzo zmieniać bo chciałbym zobaczyć co pod względem wydajności można wyciągnąć z takiej konfiguracji. Oczywiście można postawić odrębne instancje tylko pod bazę i odrębnie kolejne pod cache, ale nie o to mi chodzi.

To co od samego początku projektowania aplikacji było bardzo istotne to dostęp do najświeższych danych. Czyli ktoś wprowadza np. dokument do bazy a ktoś inny ma do niego od razu dostęp - to samo tyczy się wynikających z tego danych zarządczych. Takich dokumentów pojawi się w bazie około 5 tys. dziennie. Piszę o tym bo to dobrze zobrazuje jedne z moich problemów czyli to, że jeżeli nawet (upraszczam proces na potrzeby tego przykładu) będę zapisywał do cache wynik zapytania dotyczących dokumentów klienta to co kilka sekund przy dodawaniu nowego rekordu musiałbym ten wpis nadpisywać.

Drugą kwestią jest to, że ze względu na duże skomplikowanie systemu uprawnień i flag w samej bazie, każdy user odpytując bazę z tymi dokumentem wysyła inne zapytanie (różnią się niewiele, ale wystarczająco, żeby była potrzeba tworzenia nowych kluczy dla cache).

Czyli łącząc dwa powyższe problemy robi nam się sytuacja gdzie stosując cache dla zapytań INSERT, UPDATE, SELECT, DELETE dotyczących tej konkretnej tabeli co kilka sekund nadpisują się setki zapisanych w cache pozycji, a każda z nich niesie tak na prawdę tysiące rekordów.

No i tu to pytanie do Was, jak z Waszej praktyki powinno to wyglądać? Czy nie powinienem się przejmować i takie cachowanie pozostaje w granicach dozwolonych praktyk i mimo wszystko będzie wpływało pozytywnie na zasoby systemowe (tj. dzięki cache spadnie zapotrzebowanie na nie względem tego samego, ale pracującego na samej bazie). Albo może jednak to nie jest dobr praktyka i powinienem się w przypadku cache ograniczyć tylko do tych zasobów bazy danych które są w miarę statyczne (np. dane useów, klientów, kontrahentów) tj. dane które rzadko kiedy się aktualizuje, kasuje czy dodaje nowe.

Jeżeli chodzi o sam mechanizm do cachowania najprawdopodobniej będziemy się skupiać na APC. Wygląda na to, że w kwestii cachowania danych jest on porównywalny z memcached natomiast dużo lepiej sprawuje się w przypadku opcode, a dodatkowo ma się stać częścią php więc jako rozwiązanie natywne będzie łatwiejsze z zarządzaniu i ew. elastyczniejsze przy migracjach.

Z góry dzięki za podjęcie tematu i ew. dyskusję . Mam nadzieję, że dobrze zobrazowałem problemy .

Napisany przez: phpion 5.12.2013, 12:17:26

Moim zdaniem jeśli do systemu bardzo często trafiają nowe dane, a wymogiem jest to by prezentowane dane zawsze były aktualne to nie ma tu miejsca na cache. Sam widzisz jakie problemy będzie to generować.

PS: Cache dla INSERT, UPDATE, DELETE?

Napisany przez: ano 6.01.2014, 22:15:23

@babejsza - Ok, ale w czym dokładnie problem?
Jaka to baza? (Jeśli mysql to innodb czy myisam?)

- Zapycha Wam się baza danych? Za dużo transakcji/s do bazy? --> macie ją odpaloną w replikacji (master/master ew. slave)?
- Zapytania są za wolne?
--- JOINY ->Denormalizacja (tak tak, w erp moźe być niemożliwe, ale za mało info żeby coś sensowniej napisać)
--- Używacie funkcji db? County, sumy, date cokolwiek?

Cytat

jako rozwiązanie natywne będzie łatwiejsze z zarządzaniu i ew. elastyczniejsze przy migracjach.

W jakim sensie łatwiejsze do zarządzania? W przypadku apc nie bedziecie mieli praktycznie żadnej możliwości przy jego zarządzaniu.
Elastyczniejsze przy migracjach? W jakim sensie? Cache będziecie musieli mieć przecież na tej samej maszynie co aplikacja, nie będzie żadnej możliwości jego migracji na inny serwer.

Nie idzcie w APC, dla takiego zastosowania się nie sprawdzi.

Zainteresuj się Redisem (nie ma sensu aktualnie iść na memcache). Zapewni Wam o wiele większe możliwości administracyjne, HA i świetny jako zwykły, trwały storage. A pod wzgl. wydajnościowym - 100.000 req/s powinno Wam wystarczyć

Cacheowanie w tego typu aplikacjach może mijać się z celem z tych powodów które wypunktowałeś - konieczność natychmiastowego dostępu do świeżych danych.
Najpierw zoptymalizujcie aktualną DB, zprofilujcie aplikację a potem ew. migracja części danych na Redisa.

Napisany przez: babejsza 7.01.2014, 10:10:02

@phpion - zabrakło przecina po "cache". Chodziło to co się będzie działo z cache po operacjach CRUD .

@ano - problem jest bardziej teoretyczny. Chciałem ew. podyskutować odnośnie teorii i ew. Waszych praktyk.

Co do APC miałem na myśli fakt, że będzie ono za chwilę częścią PHP więc nie trzeba będzie dbać o doinstalowywanie go jako biblioteki. Niby szczegół, ale przy migracjach (migracji całego systemu do np. innej chmury) tych szczegółów są dziesiątki więc każdy jeden mniej robi różnicę . O redisie nie słyszałem wcześniej - dzięki, poczytam.

Optymalizacja kodu, baz itd. to kwestia oczywista, tak jak pisałem bardziej mi chodzi o teoretyczną dyskusję, po części ew. potwierdzenie moich odczuć odnośnie wykorzystania rożnych technologii czy im zaprzeczenie. Upraszczając cały mój wcześniejszy wpis pytanie sprowadza się do: czy stosować cache zapytań gdy potrzeba nam bezpośredniego dostępu do najświeższych danych.

Napisany przez: cepa 25.01.2014, 15:52:50

Cytat(babejsza @ 1.12.2013, 18:10:52 )

...

Pierwsze co weź pod rozwagę to czy potrzebujesz SQL? Czy korzystasz z transakcji? Czy potrzebujesz izolacji? Czy robisz locki na zasobach, itd itp? Jeżeli NIE, to zmień storage na NoSQL i przy takiej bazie nie idz w Mongo tylko Apache Cassandra. Z drugiej strony jak często potrzebujesz odczytywać dane i grzebac w warstwie persistence? Oraz jakie operacje wykonujesz? Czy robisz dużo sortowań? Czy masz tabele z milionami rekordów i potrzebujesz wyciągać spore porcje danych? Czy raczej operujesz w obrębie rekordu. Jezeli dużo operacji na zbiorach to SQL jest jednak prostszy w użyciu.

Zakładając, że trzymasz się SQL, to sorry ale "cachowanie" to proteza, która działa może przy blogu lub forum ale nie w systemie ERP. Polecam zainteresować się modelem CQRS (Command Query Responsibility Segregation), dodatkowo tematyka MOM (Message Oriented Middleware). Twój problem jest prosty do rozwiązania przykładowo za pomocą takiej architektury:

- operacje odczytu (Query / SELECT / HTTP GET) serwujesz z przygotowanego (cache) kontentu
- jezeli nie masz tego kontentu w cache to dany call jest zamieniany w Command i leci dalej czekając na wynik
- operacje zapisu (Command / INSERT, UPDATE, DELETE / HTTP POST, PUT, DELETE) odkladasz na kolejke (MQ) - pozwoli to kontrolowac przepływ i ilośc transakcji względem warstwy persistence
- komendy są zdejmowane z kolejki przez aktorów, którzy wykonują logike biznesową i generują wynik, zapisując go także w warstwie o niskim czasie dostępu (cache, np: memcache, redis, cassandra)

Mniej więcej taki proces powoduje, że dopoki aplikacja nie potrzebuje zmienić swojego stanu, nie ma potrzeby dotykać powolnej bazy danych, z drugiej strony eliminuje problemy z zapychaniem dostępu do bazy. Jest jeszcze jeden mega plus: zauważ, że jeżeli w kolejce masz więcej niż jedną operacje zapisu TEGO SAMEGO REKORDU, to możesz zdjąc z kolejki WSZYSTKIE starsze operacje i zapisać tylko najnowszy stan. W ten sposób mozna zmniejszyć ilośc transakcji w aplikacji, bez wpływu na generowane wyniki.

Napisany przez: ano 25.01.2014, 16:16:17

Cytat

- operacje zapisu (Command / INSERT, UPDATE, DELETE / HTTP POST, PUT, DELETE) odkladasz na kolejke (MQ) - pozwoli to kontrolowac przepływ i ilośc transakcji względem warstwy persistence

Czyli każdy select do bazy danych opakowujesz w swoją kolejkę *MQ? Jaki w tym sens?
Serwery same posiadają mechanizmy kolejkowania żądań - po co robić na to kolejną/możliwie awaryjną warstwę abstrakcji?!

Cytat

Jest jeszcze jeden mega plus: zauważ, że jeżeli w kolejce masz więcej niż jedną operacje zapisu TEGO SAMEGO REKORDU, to możesz zdjąc z kolejki WSZYSTKIE starsze operacje i zapisać tylko najnowszy stan

Jak z kolejki zdjąć inne operacje dla tego samego rekordu? ...

Cytat

Zakładając, że trzymasz się SQL, to sorry ale "cachowanie" to proteza, która działa może przy blogu lub forum ale nie w systemie ERP. Polecam zainteresować się modelem CQRS (Command Query Responsibility Segregation), dodatkowo tematyka MOM (Message Oriented Middleware). Twój problem jest prosty do rozwiązania przykładowo za pomocą takiej architektury:

Architektura która opisałeś to przecież nic innego jak zwykłe cacheowanie wynikow zapytań do bazy danych, z dodanymi "protezami" w postaci własnych kolejek.

Nie ma sensu ich wprowadzać tylko żeby zastosować throttling w bazie danych. Przy połączeniach z zewnętrznymi systemami/webservices - ok, ale do własnej bazy danych?! Jaki w tym cel?

Napisany przez: cepa 25.01.2014, 16:33:24

Cytat(ano @ 25.01.2014, 16:16:17 )

Architektura która opisałeś to przecież nic innego jak zwykłe cacheowanie wynikow zapytań do bazy danych, z dodanymi "protezami" w postaci własnych kolejek.

Zupełnie źle mnie zrozumiałeś

Ja nie kolejkuje "zapisów do bazy" czyli gołych upsertów, tylko kolejkuje transakcje biznesowe. Przykładowo, aktor uruchamia serwis np: generujący dane do wyświetlenia aktualnego stanu konta użytkownika wraz z np: billingiem i statami, korzysta z najróżniejszych warstw persistence i innych serwisów, tak długo jak użytkownik nie będzie zmieniał stanu swojego konta, tak długo nie ma potrzeby odswieżania tych informacji, a jeżeli wygenerowanie ich zajmuje relatywnie dużo czasu, bądz obciąża zasoby, a użytkownik ma interakcje z systemem w między czasie, jest możliwośc zdjęcia tych transakcji, których wynik będzie już nieaktualny zanim aktor wykona daną transakcje. Inna sprawa, wiele serwisów szybciej oblicza wynik, niż jest go w stanie zapisać, architektura tego typu, pozwala na uzyskanie wyniku zanim "spłynie" on do warstwy persistence. Po prostu działa to asynchronicznie względem wejścia czyli np: interfejsu webowego.

U nas, podobna architektura sprawdza się doskonale w usługach restowych, umożliwiając niemal liniowe skalowanie i kontrolowanie przepływu informacji przez legacy sql, a mówie wielu milionach użytkowników.

PHP to dość debilna technologia i ze współbierznością ma niewiele wspólnego, ale tego typu rozwiązania są jak najbardziej w użyciu np: Akka.io w Scali.

Napisany przez: Dejmien_85 14.02.2014, 06:20:42

Cytat(babejsza @ 7.01.2014, 10:10:02 )

Co do APC miałem na myśli fakt, że będzie ono za chwilę częścią PHP więc nie trzeba będzie dbać o doinstalowywanie go jako biblioteki.

Coś się Tobie PORZĄDNIE pomieszało - od PHP 5.5 w core Zend Engine (silnika PHP) jest OPCACHE, a nie APC. PHP rezygnuje ze wspierania APC z tego powodu, że to stare i źle zaprojektowanie rozwiązanie, z którym były CIĄGLE problemy (developerzy męczyli się tygodniami, aby wprowadzać update'y z powodu tragicznego designu).

Napisany przez: cepa 14.02.2014, 06:38:41

W 5.5 jest APCu, opcache to cache do opcodu, APC mialo jeszcze szybki keystore w pamieci, i APCu nadal realizuje ta funkcjonalnosc.

Napisany przez: pabito 24.03.2014, 16:56:24

czyli cachujac: Front-end używamy Varnish, kod PHP używamy APC, a zapytania do bazy danych REDIS ?

Napisany przez: szajens 1.06.2014, 20:54:00

kiedyś czytałem że od wersji php 5.5 jest Zend Opcache, jeżeli mój skrypt będzie się opierał na php+mysql mogę sobie darować dodatkowe cachowanie przez jakieś klasy czy własne rozwiązania?

Napisany przez: Pyton_000 25.01.2015, 12:49:48

Ja zapytam z innej beczki troszkę. Jakie macie metody na rozgrzewkę cache?

Ja myślałem żeby odwiedzić sitemap.xml jakimś curlem czy czymś. Macie jakieś rozwiązania inne?

Napisany przez: Crozin 25.01.2015, 16:25:15

Z racji na to, że rodzajów cache'a mogą być dziesiątki, gdzie część z nich nie jest zależna od tego czy strona jest odwiedzana czy nie sugerowałbym coś w deseń rozwiązania z Symfony: http://blog.whiteoctober.co.uk/2014/02/25/symfony2-cache-warmup-explained/
W ten sposób mógłbyś przygotować sobie jakieś narzędzia do rozgrzewania konkretnych rzeczy.