Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

> bot, który wyodrębni artykuły
SN@JPER^
post
Post #1





Grupa: Zarejestrowani
Postów: 266
Pomógł: 0
Dołączył: 4.01.2007
Skąd: Szczecin

Ostrzeżenie: (0%)
-----


Rozmyślam nad pewną sprawą wyodrębniania artykułów ze stron. Naprowadźcie mnie, jak najlepiej pobrać artykuł z danej strony?

Założmy mam bazę stron, z których chce pobierać co 10 minut najnowsze artykuły - czy muszę opracowywać każdą stronę po kolei wyrażeniami regularnymi? Czy jest jakiś skuteczny, a uniwersalny sposób na to? Przy ilości, załóżmy 100 stronek, opracowanie jest nieopłacalne i czasochłonne. Myślałem tylko teorytycznie nad jakimś fajnym botem, który łazi po danych mu stronach i pobiera do bazy najnowsze artykuły - z tym, że nie wiem co dalej...

Jakieś pomysły?

Ten post edytował SN@JPER^ 26.08.2013, 23:43:39
Go to the top of the page
+Quote Post
 
Start new topic
Odpowiedzi (1 - 7)
gitbejbe
post
Post #2





Grupa: Zarejestrowani
Postów: 516
Pomógł: 63
Dołączył: 27.08.2012

Ostrzeżenie: (0%)
-----


każda strona napisana jest inaczej. Można oczywiście przyjąć, że artykuły będą mieścić się w tagu <article> i tylko jego przeszukiwać, ale to bez sensu. Bot sam nie zgadnie w jakim tagu jest to czego potrzebujesz. Dlatego musisz pisać osobne skrypty dla każdego portalu. Jeśli się mylę to poprawcie

Ten post edytował gitbejbe 27.08.2013, 06:32:16
Go to the top of the page
+Quote Post
falcon85
post
Post #3





Grupa: Zarejestrowani
Postów: 10
Pomógł: 1
Dołączył: 26.07.2012

Ostrzeżenie: (0%)
-----


Raczej przedmówca ma rację - każda strona ma inną strukturę. Do pobierania stron i wyodrębniania artów możesz skorzystać z curla.

Ten post edytował falcon85 27.08.2013, 07:27:34
Go to the top of the page
+Quote Post
buliq
post
Post #4





Grupa: Zarejestrowani
Postów: 559
Pomógł: 93
Dołączył: 4.03.2008
Skąd: Olsztyn

Ostrzeżenie: (0%)
-----


Może napisać 1 skrypt, i zbudować x szablonów, według których skrypt będzie szukał artykułów.

@down
Nie polecałbym, wygląda jak relikt naprawiony duct tape

Lepiej korzystać z rozwiązań wbudowanych w PHP: DOM

Ten post edytował buliq 27.08.2013, 07:55:53
Go to the top of the page
+Quote Post
O$iek
post
Post #5





Grupa: Nieautoryzowani
Postów: 45
Pomógł: 16
Dołączył: 28.02.2009

Ostrzeżenie: (0%)
-----


Myślę, że prostszym rozwiązaniem niż wyrażenia regularne będzie gotowa klasa http://simplehtmldom.sourceforge.net i do tego tak jak pisze @buliq szablony.
Go to the top of the page
+Quote Post
!*!
post
Post #6





Grupa: Zarejestrowani
Postów: 4 298
Pomógł: 447
Dołączył: 16.11.2006

Ostrzeżenie: (0%)
-----


Skoro to serwisy z artykułami to RSS + simplexml
Go to the top of the page
+Quote Post
nmts
post
Post #7





Grupa: Zarejestrowani
Postów: 283
Pomógł: 34
Dołączył: 21.03.2008

Ostrzeżenie: (0%)
-----


Nie ma jedynego słusznego rozwiązania, a przypadek chciał, że akurat dzisiaj potrzebowałem czegoś takiego.

Skorzystałem z API Readability:
http://readability.com/developers/api/parser

Dostępny jest również port do php:
https://github.com/feelinglucky/php-readability

Go to the top of the page
+Quote Post
SN@JPER^
post
Post #8





Grupa: Zarejestrowani
Postów: 266
Pomógł: 0
Dołączył: 4.01.2007
Skąd: Szczecin

Ostrzeżenie: (0%)
-----


No właśnie, czyli będize trzeba opracowywać oddzielnie. Dziękie wielkie!
Go to the top of the page
+Quote Post

Reply to this topicStart new topic
2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Aktualny czas: 24.08.2025 - 13:18