Wykrywanie produktów w sklepach |
Wykrywanie produktów w sklepach |
8.04.2022, 13:05:51
Post
#1
|
|
Grupa: Zarejestrowani Postów: 172 Pomógł: 0 Dołączył: 11.06.2014 Ostrzeżenie: (0%) |
Witam
Mam pytanie, czy znacie jakiś sposób na rozróżnianie w sklepach podstron produktu od podstrony kategorii lub głównej itp. Tworzę narzędzie do parsowania produktów w sklepach. Wszystko już działa, ale niestety potrafi parsować strony typu kategorie znajduje tam czasem ceny itp. Różne przypadki w zależności od sklepu. Są podobne już narzędzia na rynku którę sobie z tym radzą, ale nie mam pojęcia na jakiej zasadzie tworzą te warunki. jakieś maski czy coś? Dla przykładu to jest strona kategorii: https://www2.hm.com/pl_pl/ona/produkty/bluzy.html https://www.cropp.com/pl/pl/dziewczyna/clot...kurtki-plaszcze https://www.reserved.com/pl/pl/woman/accessories/shoes To jest strona produktu: https://www2.hm.com/pl_pl/productpage.0993762003.html https://www.cropp.com/pl/pl/1326k-08x/kurtka-k-cr https://www.reserved.com/pl/pl/1296l-50x/klapki-k-re No i teraz jak można wykluczyć strony nie będące produktami, wiem że to nie będzie jedna zasada i może się nie uda odrazu wykluczyć wszystkich sklepów, ale jakiś przynajmniej odsetek Znacie podobne rozwiązania? |
|
|
8.04.2022, 21:12:08
Post
#2
|
|
Grupa: Zarejestrowani Postów: 859 Pomógł: 177 Dołączył: 29.10.2009 Ostrzeżenie: (0%) |
Cześć, nigdy nie zajmowałem się sprawdzanie czy dana strona jest kategorią ale mocno siedziałem w crawlowaniu produktów i tutaj sprawa jest bardzo prosta - praktycznie każda karta produktu ma nagłówki z informacją o cenie lub wysyła do googla eventy (datalayer).
W ten sposób ograłem sobie praktycznie każdy serwis który coś sprzedaje, a jeśli jest jakiś mocno customowy to zrobiłem sobie osobne klasy obsługujące daną stronę. ps. poradziłeś sobie z serwisami który korzystają z recaptchy v3? Ten post edytował aras785 8.04.2022, 21:17:06 |
|
|
11.04.2022, 09:44:10
Post
#3
|
|
Grupa: Zarejestrowani Postów: 172 Pomógł: 0 Dołączył: 11.06.2014 Ostrzeżenie: (0%) |
Używam curla, a jeśli blokuje mnie strona podczas parsowania to fajnie radzi sobie chromium.
W razie czego też myślałem o użyciu selenium, ale nie miałem póki co potrzeby. Masz jakiś przykład serwisu używający recaptche 3 Co do ceny na kartach produktu, to masz racje, ale niestety nie w każdym sklepie to przechodzi. Wychodzi różne "kwiatki" Dlatego mam pare ścieżek pozyskiwania danych. Parsowanie po xpathach, czasem niestety trzeba uzupelnic niektóre sklepy bo nie pobiera zawsze wszystkich danych A potem to już kolejno w zależności na co trafi w pierwszej kolejnosci: po Property Potem po script'ach kolejno item propsy i już jakieś totalne wyjątki nagłówki itp I problem jest taki, że znajduje ceny na podstronach typu kategoria. Owszem jest to mały odsetek, ale jednak |
|
|
Wersja Lo-Fi | Aktualny czas: 26.09.2024 - 14:44 |