bot, który wyodrębni artykuły

bot, który wyodrębni artykuły

SN@JPER^ Zobacz profil	26.08.2013, 23:43:08 Post #1
Grupa: Zarejestrowani Postów: 266 Pomógł: 0 Dołączył: 4.01.2007 Skąd: Szczecin Ostrzeżenie: (0%)	Rozmyślam nad pewną sprawą wyodrębniania artykułów ze stron. Naprowadźcie mnie, jak najlepiej pobrać artykuł z danej strony? Założmy mam bazę stron, z których chce pobierać co 10 minut najnowsze artykuły - czy muszę opracowywać każdą stronę po kolei wyrażeniami regularnymi? Czy jest jakiś skuteczny, a uniwersalny sposób na to? Przy ilości, załóżmy 100 stronek, opracowanie jest nieopłacalne i czasochłonne. Myślałem tylko teorytycznie nad jakimś fajnym botem, który łazi po danych mu stronach i pobiera do bazy najnowsze artykuły - z tym, że nie wiem co dalej... Jakieś pomysły? Ten post edytował SN@JPER^ 26.08.2013, 23:43:39

Odpowiedzi (1 - 7)

gitbejbe Zobacz profil	27.08.2013, 06:31:23 Post #2
Grupa: Zarejestrowani Postów: 516 Pomógł: 63 Dołączył: 27.08.2012 Ostrzeżenie: (0%)	każda strona napisana jest inaczej. Można oczywiście przyjąć, że artykuły będą mieścić się w tagu <article> i tylko jego przeszukiwać, ale to bez sensu. Bot sam nie zgadnie w jakim tagu jest to czego potrzebujesz. Dlatego musisz pisać osobne skrypty dla każdego portalu. Jeśli się mylę to poprawcie Ten post edytował gitbejbe 27.08.2013, 06:32:16

falcon85 Zobacz profil	27.08.2013, 07:26:53 Post #3
Grupa: Zarejestrowani Postów: 10 Pomógł: 1 Dołączył: 26.07.2012 Ostrzeżenie: (0%)	Raczej przedmówca ma rację - każda strona ma inną strukturę. Do pobierania stron i wyodrębniania artów możesz skorzystać z curla. Ten post edytował falcon85 27.08.2013, 07:27:34

buliq Zobacz profil	27.08.2013, 07:29:05 Post #4
Grupa: Zarejestrowani Postów: 559 Pomógł: 93 Dołączył: 4.03.2008 Skąd: Olsztyn Ostrzeżenie: (0%)	Może napisać 1 skrypt, i zbudować x szablonów, według których skrypt będzie szukał artykułów. @down Nie polecałbym, wygląda jak relikt naprawiony duct tape Lepiej korzystać z rozwiązań wbudowanych w PHP: DOM Ten post edytował buliq 27.08.2013, 07:55:53

O$iek Zobacz profil	27.08.2013, 07:35:42 Post #5
Grupa: Nieautoryzowani Postów: 45 Pomógł: 16 Dołączył: 28.02.2009 Ostrzeżenie: (0%)	Myślę, że prostszym rozwiązaniem niż wyrażenia regularne będzie gotowa klasa http://simplehtmldom.sourceforge.net i do tego tak jak pisze @buliq szablony.

!*! Zobacz profil	27.08.2013, 08:01:51 Post #6
Grupa: Zarejestrowani Postów: 4 298 Pomógł: 447 Dołączył: 16.11.2006 Ostrzeżenie: (0%)	Skoro to serwisy z artykułami to RSS + simplexml

nmts Zobacz profil	27.08.2013, 22:49:06 Post #7
Grupa: Zarejestrowani Postów: 283 Pomógł: 34 Dołączył: 21.03.2008 Ostrzeżenie: (0%)	Nie ma jedynego słusznego rozwiązania, a przypadek chciał, że akurat dzisiaj potrzebowałem czegoś takiego. Skorzystałem z API Readability: http://readability.com/developers/api/parser Dostępny jest również port do php: https://github.com/feelinglucky/php-readability

SN@JPER^ Zobacz profil	27.08.2013, 23:07:15 Post #8
Grupa: Zarejestrowani Postów: 266 Pomógł: 0 Dołączył: 4.01.2007 Skąd: Szczecin Ostrzeżenie: (0%)	No właśnie, czyli będize trzeba opracowywać oddzielnie. Dziękie wielkie!

2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Tryb wyświetlania: Przełącz na: Standardowy · Linearny+ · Przełącz na: Drzewo

Aktualny czas: 24.08.2025 - 13:18

Hosting zapewnia

Forum PHP.pl