Witaj Gościu! ( Zaloguj | Rejestruj )

Forum PHP.pl

> Pobieranie kilku źródeł strony na raz.
franz87
post
Post #1





Grupa: Zarejestrowani
Postów: 57
Pomógł: 0
Dołączył: 24.08.2009

Ostrzeżenie: (0%)
-----


Witam,
Mam pytanie, potrzebuje zrobić program, który pobiera wiele źródeł strony na raz - kilka tysięcy (np po 100 albo 1000 źródeł na raz).
Ponieważ licząc, że jedna strona (ok. 30-40KB) pobiarała by się dzisiętne sekundy, to przy dużej ilości, byłby to spory czas.
Tu pytanie, czy pobieranie kilku źródeł na raz jest możliwe?
Nie wiem, czy otwieranie stron działa w podobie do wielodostępności w OS, czy może jest możliwość równoległego pobierania stron?
Jeśli tak to jaką funkcją się posłużyć?
Go to the top of the page
+Quote Post
 
Start new topic
Odpowiedzi
franz87
post
Post #2





Grupa: Zarejestrowani
Postów: 57
Pomógł: 0
Dołączył: 24.08.2009

Ostrzeżenie: (0%)
-----


Sorry, że odgrzewam temat z przed roku.
pyro dzięki, mam jeszcze jedno pytanie.
Chcę zrobić skrypt, który pobiera źródła do 100.000 stron (z ogólnoświatowego serwisu) i zapisuje je na dysku.
Pytanie czy system, który ma ów serwis nie zrozumie tego jako atak typu DDos lub próbę spowolnienia serwisu i np. zablokuje moje IP etc ?

Drugie pytanie czy mogę tak liczyć szybkość ściągania źródeł ?:
100.000 stron , każda po 30KB , co równa się 3GB.
Pobieram dzięki curl_multi powiedzmy 1000 jednocześnie, czyli 1000*30KB - 29MB.
Internet mam powiedzmy 10Mbit/s czyli potrzebuję 2,9 sekundy, żeby pobrać te 29MB.
Muszę takich równoległych strumieni zrobić 100, żeby było 100.000 źródeł, czyli 100*2,9s - ok. 5 minut.
Mogę tak to liczyć?
Go to the top of the page
+Quote Post
pyro
post
Post #3





Grupa: Zarejestrowani
Postów: 2 148
Pomógł: 230
Dołączył: 26.03.2008

Ostrzeżenie: (0%)
-----


Kurcze z roku na rok coraz mniej widowiskowe te fajerwerki.

Cytat(franz87 @ 1.01.2013, 01:12:01 ) *
Sorry, że odgrzewam temat z przed roku.
pyro dzięki, mam jeszcze jedno pytanie.
Chcę zrobić skrypt, który pobiera źródła do 100.000 stron (z ogólnoświatowego serwisu) i zapisuje je na dysku.
Pytanie czy system, który ma ów serwis nie zrozumie tego jako atak typu DDos lub próbę spowolnienia serwisu i np. zablokuje moje IP etc ?


To zależy od konfiguracji serwera i jego firewalla / IDS / innych systemów zabezpieczeń. Istnieją techniki skutecznie omijające takie zabezpieczenia i nawet adminów przeglądających logi. Niestety nie licz na to, że Ci zdradzę te metody.

Cytat(franz87 @ 1.01.2013, 01:12:01 ) *
Drugie pytanie czy mogę tak liczyć szybkość ściągania źródeł ?:
100.000 stron , każda po 30KB , co równa się 3GB.
Pobieram dzięki curl_multi powiedzmy 1000 jednocześnie, czyli 1000*30KB - 29MB.
Internet mam powiedzmy 10Mbit/s czyli potrzebuję 2,9 sekundy, żeby pobrać te 29MB.
Muszę takich równoległych strumieni zrobić 100, żeby było 100.000 źródeł, czyli 100*2,9s - ok. 5 minut.
Mogę tak to liczyć?


Takie obliczenia w tym przypadku prawie nigdy nie będą dokładne. Lepiej po prostu dać orientacyjną szybkośc, np. w procentach.
Kod
(ilość sciągniętych stron / ilość wszystkich stron do ściągnięcia) * 100 = X %
Go to the top of the page
+Quote Post
franz87
post
Post #4





Grupa: Zarejestrowani
Postów: 57
Pomógł: 0
Dołączył: 24.08.2009

Ostrzeżenie: (0%)
-----


Cytat(pyro @ 1.01.2013, 03:40:21 ) *
Niestety nie licz na to, że Ci zdradzę te metody.


Żeby nie było niejasności nie mam zamiaru robić niczego niezgodnego z prawem, stąd też moja obecność/pytanie tutaj.
Inspiruje mnie narzędzie oferowane przez www.manubia.pl
Narzędzie to zdaje raporty sprzedaży konkurencji na serwisach typu allegro,ebay,świstak itp.
Prześledziłem możliwości AllegroWebAPI i EbayWebAPI ,i nie ma tam możliwości wyciągnięcia takich danych.
Wątpie,żeby tak duże serwisy dały możliwość wglądu do swoich baz, bo przecież mogłyby same,wcześniej zrobić takie narzędzie i sprzedawać...Chyba,że się mylę...
Go to the top of the page
+Quote Post

Posty w temacie


Reply to this topicStart new topic
2 Użytkowników czyta ten temat (2 Gości i 0 Anonimowych użytkowników)
0 Zarejestrowanych:

 



RSS Aktualny czas: 18.10.2025 - 11:22