Sprawdzanie na stronie słów kluczowych

Sprawdzanie na stronie słów kluczowych

than Zobacz profil	22.01.2008, 16:23:48 Post #1
Grupa: Zarejestrowani Postów: 32 Pomógł: 4 Dołączył: 22.01.2008 Ostrzeżenie: (0%)	Witam Od pewnego czasu zastanawiam się jak zrobić skrypt, który wstawiony jako iframe (lub za pomocą js) na inną stronę, pobierałby z niej tekst i sprawdzał, na podstawie swojej bazy danych, czy występują na niej słowa kluczowe. Problemem jest to że w bazie słowa kluczowe zapisywane są po kilka w każdym rekordzie oddzielone spacjami (rozdzielenie ich do tablicy z ID rekordu wymaga więcej czasu i pamięci). Próbowałem robić to łącząc się za pomocą CURL ze stroną ($_SERVER['HTTP_REFERER']), następnie usuwając znaczniki html i wszystkie znaki interpunkcyjne i specjalne. Dalej dzielę wynik do tablicy przez spacje i teraz problem: dla każdego wpisu w tablicy muszę wykonać zapytanie do bazy, żeby sprawdzić czy nie jest on słowem kluczowym. Zajmuje to zdecydowanie za dużo czasu i obciąża serwer, szczególnie że nie jest to jedyne zadanie skryptu (dalej analizuje słowa kluczowa, zapisuje w bazie ich występowanie, itp.). Może ma ktoś jakieś propozycje jak przyśpieszyć działanie skryptu i odciążyć serwer? Daje kod jakim tworzę tą tablicę ze słowami, dalej w pętli porownuje z wpisami w bazie. [PHP] pobierz, plaintext <?php $url = $_SERVER['HTTP_REFERER']; $curl = curl_init(); $header[0] = 'Accept: text/xml,application/xml,application/xhtml+xml,'; $header[0] .= 'text/html;q=0.9,text/plain;q=0.8,image/png,/;q=0.5'; $header[] = 'Cache-Control: max-age=0'; $header[] = 'Connection: keep-alive'; $header[] = 'Keep-Alive: 300'; $header[] = 'Accept-Charset: ISO-8859-1,utf-8;q=0.7,;q=0.7'; $header[] = 'Accept-Language: en-us,en;q=0.5'; $header[] = 'Pragma: '; curl_setopt($curl, CURLOPT_URL, $url); curl_setopt($curl, CURLOPT_USERAGENT, 'Googlebot/2.1 (+http://www.google.com/bot.html)'); curl_setopt($curl, CURLOPT_HTTPHEADER, $header); curl_setopt($curl, CURLOPT_REFERER, 'http://www.google.com'); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); $html = curl_exec($curl); curl_close($curl); $search = array('/<?((?!?>).)?>/s'); $html = strip_tags(preg_replace($search, '', $html)); $tab = array('ą' => 'a', 'ć' => 'c', 'ę' => 'e', 'ł' => 'l', 'ń' => 'n', 'ó' => 'o', 'ś' => 's', 'ź' => 'z', 'ż' => 'z', 'ą' => 'a', 'ę' => 'e', 'ó' => 'o', 'ś' => 's', 'ł' => 'l', 'ż' => 'z', 'ź' => 'z', 'ć' => 'c', 'ń' => 'n'); $html = strtr($html, $tab); $f = array(' ', '\|', ',', '.', '?', '!', '@', '#', ' , '%', '^', '&', '*', '(', ')', '-', '_', '=', '+', '\', '/', ']', '[', '{', '}', ';', ':', '`', '~'); $html = str_replace($f, ' ', $html); $html = ereg_replace('[[:space:]]+', ' ', $html); $keys = explode(' ', $html); $html = ''; ?> [PHP] pobierz, plaintext A może znacie inny sposób na sprawdzenie czy na stronie występują słowa z bazy?

Odpowiedzi

than Zobacz profil	23.01.2008, 16:19:12 Post #2
Grupa: Zarejestrowani Postów: 32 Pomógł: 4 Dołączył: 22.01.2008 Ostrzeżenie: (0%)	Dzięki Cotter za wykład (IMG:http://forum.php.pl/style_emoticons/default/winksmiley.jpg) Napewno z niego skorzystam, jednak myślę jeszcze nad cache'owaniem wyników z wyszukiwania słów na stronach. Wtedy zapisywałoby ID rekordu, w którym znajduje się dane słowo (jedno słowo - jeden rekord), do plików .txt Pliki byłyby zapisywane zgodnie ze schematem cache/(domena)/(nazwa katalogu lub pliku).txt Dane w cache byłyby sprawdzane raz lub dwa razy na tydzień (cron), a nowe dodawane gdy szuka słów kluczowych na nieznanej stronie. Powinno to trochę odciążyć bazę danych, szkoda tylko że dysk przy tym oberwie. Ogólnie skrypt szukający słów kluczowych byłby wywoływany ok. 50k razy (uq wyświetlenia) i przeszło 250k wyśw (dane ze statystyk) dziennie na różnych stronach, a ta wartość rośnie dosyć szybko. Bez tego baza danych mogłaby nie wyrobić. Myślisz, że takie rozwiązanie zmieni coś przy wybieraniu słów kluczowych? Dzięki temu powinno przeszukiwać każdą stronę raz lub dwa razy w tygodniu a nie kilkaset razy dziennie, tylko czy przy większej ilości adresów (w końcu każda podstrona ma swój plik z ID słów kluczowych) nie obciąży to zbytnio procesora? I jeszcze: podany przeze mnie sposób pobierania słów ze strony jest dobry? Czy można go przyśpieszyć (napewno można, tylko jak)? Przy cache'owaniu będzie wywoływany ok. 500-1k razy dziennie (w dniu cron'a skoczy do ok. 10k, zależnie od ilości podstron zapisanych w plikach) więc różnica nawet niecałej sekundy może dużo dać.

Posty w temacie

than Sprawdzanie na stronie słów kluczowych 22.01.2008, 16:23:48

Cotter Pozwolę sobie zacząć od krytyki zastosowanego rozw... 22.01.2008, 23:08:14

than Dzięki Cotter za wykład Napewno z niego skorzysta... 23.01.2008, 16:19:12

« Następny starszy · PHP · Następny nowszy »

2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Forum PHP.pl