Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

 
Reply to this topicStart new topic
> Wykrywanie produktów w sklepach
atom90
post 8.04.2022, 13:05:51
Post #1





Grupa: Zarejestrowani
Postów: 172
Pomógł: 0
Dołączył: 11.06.2014

Ostrzeżenie: (0%)
-----


Witam

Mam pytanie, czy znacie jakiś sposób na rozróżnianie w sklepach podstron produktu od podstrony kategorii lub głównej itp.

Tworzę narzędzie do parsowania produktów w sklepach. Wszystko już działa, ale niestety potrafi parsować strony typu kategorie znajduje tam czasem ceny itp. Różne przypadki w zależności od sklepu.

Są podobne już narzędzia na rynku którę sobie z tym radzą, ale nie mam pojęcia na jakiej zasadzie tworzą te warunki. jakieś maski czy coś?

Dla przykładu
to jest strona kategorii:
https://www2.hm.com/pl_pl/ona/produkty/bluzy.html
https://www.cropp.com/pl/pl/dziewczyna/clot...kurtki-plaszcze
https://www.reserved.com/pl/pl/woman/accessories/shoes

To jest strona produktu:
https://www2.hm.com/pl_pl/productpage.0993762003.html
https://www.cropp.com/pl/pl/1326k-08x/kurtka-k-cr
https://www.reserved.com/pl/pl/1296l-50x/klapki-k-re

No i teraz jak można wykluczyć strony nie będące produktami, wiem że to nie będzie jedna zasada i może się nie uda odrazu wykluczyć wszystkich sklepów, ale jakiś przynajmniej odsetek smile.gif
Znacie podobne rozwiązania?
Go to the top of the page
+Quote Post
aras785
post 8.04.2022, 21:12:08
Post #2





Grupa: Zarejestrowani
Postów: 859
Pomógł: 177
Dołączył: 29.10.2009

Ostrzeżenie: (0%)
-----


Cześć, nigdy nie zajmowałem się sprawdzanie czy dana strona jest kategorią ale mocno siedziałem w crawlowaniu produktów i tutaj sprawa jest bardzo prosta - praktycznie każda karta produktu ma nagłówki z informacją o cenie lub wysyła do googla eventy (datalayer).
W ten sposób ograłem sobie praktycznie każdy serwis który coś sprzedaje, a jeśli jest jakiś mocno customowy to zrobiłem sobie osobne klasy obsługujące daną stronę.

ps. poradziłeś sobie z serwisami który korzystają z recaptchy v3?


Ten post edytował aras785 8.04.2022, 21:17:06
Go to the top of the page
+Quote Post
atom90
post 11.04.2022, 09:44:10
Post #3





Grupa: Zarejestrowani
Postów: 172
Pomógł: 0
Dołączył: 11.06.2014

Ostrzeżenie: (0%)
-----


Używam curla, a jeśli blokuje mnie strona podczas parsowania to fajnie radzi sobie chromium.

W razie czego też myślałem o użyciu selenium, ale nie miałem póki co potrzeby. Masz jakiś przykład serwisu używający recaptche 3

Co do ceny na kartach produktu, to masz racje, ale niestety nie w każdym sklepie to przechodzi.

Wychodzi różne "kwiatki" Dlatego mam pare ścieżek pozyskiwania danych.

Parsowanie po xpathach, czasem niestety trzeba uzupelnic niektóre sklepy bo nie pobiera zawsze wszystkich danych

A potem to już kolejno w zależności na co trafi w pierwszej kolejnosci:
po Property
Potem po script'ach
kolejno item propsy

i już jakieś totalne wyjątki nagłówki itp

I problem jest taki, że znajduje ceny na podstronach typu kategoria. Owszem jest to mały odsetek, ale jednak sad.gif

Go to the top of the page
+Quote Post

Reply to this topicStart new topic
1 Użytkowników czyta ten temat (1 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Wersja Lo-Fi Aktualny czas: 28.03.2024 - 09:33