Drukowana wersja tematu

Kliknij tu, aby zobaczyć temat w orginalnym formacie

Forum PHP.pl _ Przedszkole _ [php] Pobranie odpowiedniej części zawartości strony do tablicy/bazy danych

Napisany przez: glupek 7.06.2018, 12:48:29

Konkretnie.
Jest strona http://www.90minut.pl/strzelcy.php?id=9327.

Cel: pobranie nazwisk piłkarzy z drugiej części od "strzelcy według drużyn". Po prostu, imię i nazwisko każdego strzelca do kolejnych elementów tablicy.

Jak to zrobiłem do tej pory:

Idiotycznie. Ale próbowałem. Znalazłem gdzieś w internecie funkcję, która potrafi zwracać fragmenty ciągów znajdujące się pomiędzy danymi "tagami" - początkowym i końcowym. No więc ustawiłem, żeby pobierało od " " (spacja) do "," (przecinek) - tak mniej więcej na stronie umiejscowione są nazwiska piłkarzy. Potem wywalałem z elementów tablicy wszystko przed ":", żeby usunąć nazwy klubów. Następnie wyrzuciłem "-" i cyfry. O dziwo, udało mi się w ten sposób pobrać ze strony wszystkie nazwiska strzelców, ale... poza ostatnimi w każdej linijce. Dlaczego? Bo po nich nie ma "," (przecinka)

Ogólnie wyszło mi coś takiego:

[PHP] pobierz, plaintext 
include("tekst.php");
 
 
function getContents($str, $startDelimiter, $endDelimiter) {
  $contents = http://www.php.net/array();
  $startDelimiterLength = http://www.php.net/strlen($startDelimiter);
  $endDelimiterLength = http://www.php.net/strlen($endDelimiter);
  $startFrom = $contentStart = $contentEnd = 0;
  while (false !== ($contentStart = http://www.php.net/strpos($str, $startDelimiter, $startFrom))) {
    $contentStart += $startDelimiterLength;
    $contentEnd = http://www.php.net/strpos($str, $endDelimiter, $contentStart);
    if (false === $contentEnd) {
      break;
    }
    $huj = http://www.php.net/substr($str, $contentStart, $contentEnd - $contentStart);
    $huj = http://www.php.net/str_replace("-", "", $huj);
    $huj = http://www.php.net/preg_replace('/[0-9]+/', '', $huj);
    $chuj = http://www.php.net/strchr($huj, ":");
    $chuj = http://www.php.net/str_replace(":", "", $chuj);
    $chuj = http://www.php.net/str_replace(http://www.php.net/array("\n", "\n\r", "\r\n", "\r"), "guuwn", $chuj);
    if (http://www.php.net/strpos($chuj, "guuwn")!==false) $chuj = http://www.php.net/substr($chuj, 0, http://www.php.net/strpos($chuj, "guuwn"));
    if ($chuj!="") $contents[] = $chuj; else $contents[]=$huj;
    $startFrom = $contentEnd + $endDelimiterLength;
  }
 
  return $contents;
}
 
$tablica = getContents($tekst, ' ', ',');	
http://www.php.net/print_r($tablica);
[PHP] pobierz, plaintext

Pytania:
1. Jak pobrać z tego tekstu nazwiska strzelców, którzy są ostatni w linijce? Myślę, że można by to zrobić przeszukując tekst od końca, między znakiem nowej linii (/n czy tam /r, nie wiem właśnie), a przecinkiem lub spacją... kurde nie wiem
2. Jak zrealizować cel w ludzki sposób, bez robienia takich głupstw jak wyżej

Napisany przez: SmokAnalog 11.06.2018, 22:03:45

Trochę mi się nudziło, więc zrobiłem Ci gotowca.

[PHP] pobierz, plaintext 
<?php
 
$url = 'http://www.90minut.pl/strzelcy.php?id=9327';
$doc = new DOMDocument();
 
@$doc->loadHTML(mb_convert_encoding(http://www.php.net/file_get_contents($url), 'HTML-ENTITIES', 'UTF-8'));
 
$xpath   = new DOMXPath($doc);
$cells   = $xpath->query("//table[@class='main'][2]/tr[position()>2]//td");
$scorers = [];
 
foreach ($cells as $element) {
    $team          = $element->childNodes->item(1)->textContent;
    $childrenCount = $element->childNodes->length;
 
    for ($i = 3; $i < $childrenCount; $i += 2) {
        $score       = (int) $element->childNodes->item($i)->textContent;
        $teamScorers = http://www.php.net/array_filter(http://www.php.net/array_map('trim', http://www.php.net/explode(',', http://www.php.net/substr($element->childNodes->item($i + 1)->textContent, 3))));
 
        foreach ($teamScorers as $name) {
            $scorers[] = http://www.php.net/compact('name', 'score', 'team');
        }
    }
}
 
http://www.php.net/array_multisort(
    array_column($scorers, 'score'),
    SORT_DESC,
    array_column($scorers, 'name'),
    array_column($scorers, 'team'),
    $scorers
);
[PHP] pobierz, plaintext

To jest dosyć eleganckie rozwiązanie tego problemu. Na tyle, na ile pozwala struktura tej strony, która do idealnych nie należy.

W tablicy $scorers będziesz miał coś takiego:

[PHP] pobierz, plaintext 
[
    [
        'name'  => 'Cristiano Ronaldo',
        'score' => 15,
        'team'  => 'Real Madrid CF'
    ],
    [
        'name'  => 'Mohamed Salah',
        'score' => 11,
        'team'  => 'Liverpool FC'
    ],
    [
        'name'  => 'Roberto Firmino',
        'score' => 11,
        'team'  => 'Liverpool FC'
    ],
    [
        'name'  => 'Sadio Man',
        'score' => 10,
        'team'  => 'Liverpool FC'
    ],
    [
        'name'  => 'Wissam Ben Yedder',
        'score' => 10,
        'team'  => 'Sevilla FC'
    ],
    // itd.
]
[PHP] pobierz, plaintext

Piłkarze posortowani według liczby strzelonych goli (od najlepszych), potem wg imienia i nazwiska, potem wg nazwy drużyny.

Może być?

Napisany przez: olszam 13.06.2018, 08:52:13

http://simplehtmldom.sourceforge.net łatwiej użyć tego do ściągania danych.

Napisany przez: SmokAnalog 13.06.2018, 09:03:26

Czy ja wiem czy aż tak łatwiej? Jak się zna XPath to nawet w DOMDocument można cuda łatwo robić.

Napisany przez: olszam 14.06.2018, 10:31:34

ja tam z tego korzystam gdy trzeba do szukania czegoś w strukturze html, ostatnio z transfermarkta chciałem pościągać parę danych

Napisany przez: SmokAnalog 14.06.2018, 11:03:30

Te zewnętrzne biblioteki do parsowania DOM mają zwykle bardziej sensowną składnię niż wbudowany DOMDocument, nie mówiąc już nawet o dziwacznym SimpleXML. Z drugiej strony, czasami fajnie jest mieć niezależny kod bez żadnych zewnętrznych bibliotek. Przydałby się porządny wbudowany parser w PHP.

P.S. Myślałem, że jesteś dziewczyną Ten avatar + Olsza M. Będę pamiętał, żeś samiec.