Forum PHP.pl

Forum PHP.pl > Forum > PHP

Pobranie elementu h1

Destrudo Zobacz profil	24.01.2017, 09:38:42 Post #1
Grupa: Zarejestrowani Postów: 74 Pomógł: 0 Dołączył: 10.10.2011 Ostrzeżenie: (0%)	Hej, Próbuję pobrać zawartość nagłówka h1 ze źródła strony i nie bardzo mam pomysł. simpledomparser odpada, bo nie jest w stanie pobrać niektórych stron, w związku z czym, chciałem pobrać to ze źródła: Pobieranie źródła: [PHP] pobierz, plaintext $strona = 'example.com'; $datax = file_get_contents('http://'.$strona.'/'); $zrodlo = htmlspecialchars($datax); [PHP] pobierz, plaintext Teraz chciałbym pobrać zawartość znajdującą się w zmiennej $zrodlo, pomiędzy "<h1" a "</h1>" (pewnie trzeba użyć encji). Nie mam pomysłu jak wziąc to, co jest pomiędzy, w dodatku z wyłączeniem "class" bądź "style", jeśli nagłówek ma postać: <h1 class="">test</h1> lub <h1 style="">test</h1> lub <h1 style="" class="">test</h1> Ten post edytował Destrudo 24.01.2017, 09:40:15

2 Stron

1 2 >

Start new topic

Odpowiedzi (1 - 19)

viking Zobacz profil	24.01.2017, 10:03:00 Post #2
Grupa: Zarejestrowani Postów: 6 381 Pomógł: 1116 Dołączył: 30.08.2006 Ostrzeżenie: (0%)	Co to znaczy że nie jest w stanie pobrać stron? Żeby pobierać spoza filesystemu php musi być do tego skonfigurowane.

Destrudo Zobacz profil	24.01.2017, 10:09:24 Post #3
Grupa: Zarejestrowani Postów: 74 Pomógł: 0 Dołączył: 10.10.2011 Ostrzeżenie: (0%)	A w jaki sposób to skonfigurować? Bo np poniższy plik: [PHP] pobierz, plaintext <?php include('simple_html_dom.php'); $html = file_get_html('https://example.com'); //to fetch all hyperlinks from a webpage $links = array(); foreach($html->find('a') as $a) { $links[] = $a->href; } print_r($links); //to fetch all images from a webpage $images = array(); foreach($html->find('img') as $img) { $images[] = $img->src; } print_r($images); //to find h1 headers from a webpage $headlines = array(); foreach($html->find('h1') as $header) { $headlines[] = $header->plaintext; } print_r($headlines); ?> [PHP] pobierz, plaintext pobiera dobrze, a niektórych stron nie pobiera (nie wiem od czego to zależne). W jaki sposób powinienem skonfigurować simpledomparsera, aby pobierał każdą stronę? Ten post edytował Destrudo 24.01.2017, 10:10:06

kpt_lucek Zobacz profil	24.01.2017, 10:12:03 Post #4
Grupa: Zarejestrowani Postów: 428 Pomógł: 77 Dołączył: 10.07.2011 Skąd: Warszawa Ostrzeżenie: (0%)	Bo pewnie niektóre strony są oparte o FW po stronie frontendu.

Destrudo Zobacz profil	24.01.2017, 10:19:35 Post #5
Grupa: Zarejestrowani Postów: 74 Pomógł: 0 Dołączył: 10.10.2011 Ostrzeżenie: (0%)	jest zatem jakaś szansa na pobranie <h1> z każdej strony? np destrudo.pl ten parser nie chce pobrać

viking Zobacz profil	24.01.2017, 10:22:50 Post #6
Grupa: Zarejestrowani Postów: 6 381 Pomógł: 1116 Dołączył: 30.08.2006 Ostrzeżenie: (0%)	Jedyne h1 na tej stronie to #logo bez treści żadnej.

Destrudo Zobacz profil	24.01.2017, 10:26:21 Post #7
Grupa: Zarejestrowani Postów: 74 Pomógł: 0 Dołączył: 10.10.2011 Ostrzeżenie: (0%)	no ok, tylko że parser nie podaje żadnej wartości - https://destrudo.pl/xx/h1.php (nie chce się w ogóle uruchomić) Ten post edytował Destrudo 24.01.2017, 10:28:17

viking Zobacz profil	24.01.2017, 10:34:16 Post #8
Grupa: Zarejestrowani Postów: 6 381 Pomógł: 1116 Dołączył: 30.08.2006 Ostrzeżenie: (0%)	Jak masz internal server error i wyłączone błedy na ekranie to co ma podać?

Destrudo Zobacz profil	24.01.2017, 10:45:52 Post #9
Grupa: Zarejestrowani Postów: 74 Pomógł: 0 Dołączył: 10.10.2011 Ostrzeżenie: (0%)	Na stackoverflow znalazłem taki kod: [PHP] pobierz, plaintext <?php include('simple_html_dom.php'); $base = 'https://destrudo.pl'; $curl = curl_init(); curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, FALSE); curl_setopt($curl, CURLOPT_HEADER, false); curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true); curl_setopt($curl, CURLOPT_URL, $base); curl_setopt($curl, CURLOPT_REFERER, $base); curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE); $str = curl_exec($curl); curl_close($curl); // Create a DOM object $html_base = new simple_html_dom(); // Load HTML from a string $html_base->load($str); //get all category links foreach($html_base->find('a') as $element) { echo "<pre>"; print_r( $element->href ); echo "</pre>"; } $html_base->clear(); unset($html_base); ?> [PHP] pobierz, plaintext który poprawnie podaje linki, więc jest już jakiś progres. Nie wiem tylko teraz jak go przerobić, aby podawał nagłówki h1

viking Zobacz profil	24.01.2017, 10:53:11 Post #10
Grupa: Zarejestrowani Postów: 6 381 Pomógł: 1116 Dołączył: 30.08.2006 Ostrzeżenie: (0%)	Dokładnie tak samo jak dla a [PHP] pobierz, plaintext foreach($html_base->find('h1') as $element) { echo "<pre>"; print_r( $element->plaintext ); echo "</pre>"; } [PHP] pobierz, plaintext

Destrudo Zobacz profil	24.01.2017, 11:04:33 Post #11
Grupa: Zarejestrowani Postów: 74 Pomógł: 0 Dołączył: 10.10.2011 Ostrzeżenie: (0%)	Dzięki wielkie, działa, a jeszcze takie pytanie, bo do destrudo pokazało się: "Your access to this site has been limited" - da się to jakoś obejść? I drugie pytanko mam jeszcze, jak jesteśmy przy nagłówkach. Jak sobie wybiorę wszystkie h1-h6 i poukładam jeden pod drugim, dajmy na to: h1 = qwe h2 = qwe h2 = qwer itd., da się jakoś sprawdzić, czy każdy wyciągnięty nagłówek jest różny? (czy są unikalne)

ostrylg Zobacz profil	24.01.2017, 11:16:58 Post #12
Grupa: Zarejestrowani Postów: 144 Pomógł: 18 Dołączył: 11.12.2005 Skąd: Gdańsk Ostrzeżenie: (0%)	Jezeli masz przypisane wszystkie naglowki do zmiennych to mozesz to sprawdzic za pomoca instrukcji if, ewentualnie stworzyc tablice i sprawdzic za pomoca funkcji in_array

Destrudo Zobacz profil	24.01.2017, 11:35:43 Post #13
Grupa: Zarejestrowani Postów: 74 Pomógł: 0 Dołączył: 10.10.2011 Ostrzeżenie: (0%)	Własnie nie do końca mam przypisane, bo np do jednej zmiennej mam przypisane wszystkie nagłówki h2 (dajmy na to jest ich 6) z parsera i teraz zastanawiam się, jak sprawdzić w tej zmiennej, czy nagłówki (może ciągli oddzielone <br>? choć tam nie ma br, nie mam pomysłu zbytnio) są unikalne (czy każdy nagłówek z tych 6 nagłówków h2 jest inny, a potem czy każdy nagłówek (wszystkie h2, h3, h4 itd) jest unikalny

ostrylg Zobacz profil	24.01.2017, 12:06:24 Post #14
Grupa: Zarejestrowani Postów: 144 Pomógł: 18 Dołączył: 11.12.2005 Skąd: Gdańsk Ostrzeżenie: (0%)	To w jaki sposob przypisujesz naglowki np. H2 do zmiennej i jak pozniej sprawdzasz jej zawartosc?

Destrudo Zobacz profil	24.01.2017, 12:11:11 Post #15
Grupa: Zarejestrowani Postów: 74 Pomógł: 0 Dołączył: 10.10.2011 Ostrzeżenie: (0%)	W taki sposób: [PHP] pobierz, plaintext foreach($html_base->find('h1') as $element) { echo "<pre>"; $h1 = $element->plaintext; echo $h1; echo "</pre>"; } [PHP] pobierz, plaintext Choć martwią mnie limity tego parsera

viking Zobacz profil	24.01.2017, 12:16:17 Post #16
Grupa: Zarejestrowani Postów: 6 381 Pomógł: 1116 Dołączył: 30.08.2006 Ostrzeżenie: (0%)	jakie limity? Możesz przecież find('h1, h2, h3...')..

ostrylg Zobacz profil	24.01.2017, 12:17:09 Post #17
Grupa: Zarejestrowani Postów: 144 Pomógł: 18 Dołączył: 11.12.2005 Skąd: Gdańsk Ostrzeżenie: (0%)	Zrob sobie tablice z tymi naglowkami: [PHP] pobierz, plaintext $array = []; foreach($html_base->find('h1') as $element) { array_push($array, $element->plaintext); } [PHP] pobierz, plaintext Pozniej uzyj array_unique jezeli nie chcesz miec takich samych naglowkow na stronie

Destrudo Zobacz profil	24.01.2017, 12:29:29 Post #18
Grupa: Zarejestrowani Postów: 74 Pomógł: 0 Dołączył: 10.10.2011 Ostrzeżenie: (0%)	W taki sposób? [PHP] pobierz, plaintext $array = []; foreach($html_base->find('h1,h2,h3,h4,h5,h6') as $element) { array_push($array, $element->plaintext); $result = array_unique($array); print_r($result); } [PHP] pobierz, plaintext Jak teraz wyświetlić informację, czy nagłówki są unikalne, czy też powtarzają się? A co do pytania o limity, to chodziło mi o limity na stronę, bo dostałem taki komunikat: "Your access to this site has been limited", choć możliwe że to limit przez spamowanie tej samej domeny i jest on chwilowy?

ostrylg Zobacz profil	24.01.2017, 12:34:46 Post #19
Grupa: Zarejestrowani Postów: 144 Pomógł: 18 Dołączył: 11.12.2005 Skąd: Gdańsk Ostrzeżenie: (0%)	Moze po prostu napisz co chcesz konkretnie osiagnac z tymi naglowkami, w jaki sposob chcesz je wysiwetlac, grupowac etc. Co do limitow to limit serwera dla ilosci zapytan.

Destrudo Zobacz profil	24.01.2017, 12:40:47 Post #20
Grupa: Zarejestrowani Postów: 74 Pomógł: 0 Dołączył: 10.10.2011 Ostrzeżenie: (0%)	Chciałbym sprawdzic i wyechowac informacje, czy naglowki są unikalne, przykład: pobieram naggłówki: h1 = ttt h2 = ewew h3 = q, reqwe, q, ttt I w tym przykładzie nagłówki nie są unikalne, bo w h3 występują 2 takie same nagłówki ("q") i nagłówek h1 jest taki sam jak jeden z nagłówków h3 ("ttt") I jeszcze co do limitów: https://destrudo.pl/xx/h11.php - jest wpisana strona destrudo.pl, a jeśli wpiszę jakąś inną stronę w ten kod, to działa, więc nie wiem jak rozumieć te limity i jak je zwiększyć

« Następny starszy · PHP · Następny nowszy »

2 Stron

1 2 >

Reply to this topic

Start new topic

2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)

0 Zarejestrowanych:

Tryb wyświetlania: Przełącz na: Standardowy · Linearny+ · Przełącz na: Drzewo

Śledź ten temat · Wyślij temat na e-mail · Wydrukuj ten temat · Subskrybuj to forum

Aktualny czas: 16.09.2025 - 18:18

Powered By IP.Board © 2025 IPS, Inc.
All changes by PHP.pl Administrators

Hosting zapewnia

NQ.pl hosting, trac, svn