Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

> indeksacja treści witryn internetowych
pgrzelka
post
Post #1





Grupa: Zarejestrowani
Postów: 313
Pomógł: 24
Dołączył: 9.08.2008
Skąd: Kielce

Ostrzeżenie: (0%)
-----


Witam

potrzebuję zrobić indeksację treści z listy podanych stron www.

czy znajdę gotowy skrypt który mi ładnie odfiltruje potrzebny tekst ze stron www?
jeśli nie to jak przefiltrować taką pobraną stronę?

usunięcie wszystkich tagów html odpada, ponieważ muszę zostawić np h1, h2, b, i, u, itp

na razie mam taki kod
  1. preg_match ( '/<body>(.*)<\/body>/si', $this->_source, $body);
  2. $body = $body[0];
  3.  
  4. $body = preg_replace('@<script.*?>.*?</script>@si', '', $body);
  5. $body = preg_replace('@<form.*?>.*?</form>@si', '', $body);
  6. $body = preg_replace('@<!--.*?-->@si', '', $body);
  7. $body = preg_replace('@<div.*?>@si', '<div>', $body);
  8. $body = preg_replace('@<p.*?>@si', '<p>', $body);
  9.  
  10. $body = preg_replace('@<p.*?>(.*?)</p>@si', '{/1}', $body);

kolejno
- pobiera body
- usuwa JS
- usuwa formularze
- usuwa komentarze
- usuwa class i id z divów
- j/w ale z <p>

co jeszcze mogę dodać do takiego kodu? ewentualnie gdzie szukać gotowego rozwiązania
Go to the top of the page
+Quote Post

Posty w temacie


Reply to this topicStart new topic
2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Aktualny czas: 10.06.2026 - 23:51