Nie wiem, czy to dobry dział i czy dobrą metodą (linuxowa konsola) próbuję zrealizować to zadanie.
Czy ktoś z Was ma pod ręką regexp/polecenie dla grepa, żeby z pliku .html wygrepować urle (wartość atrybutu src dla <img>) z pliku HTML? Googlowałem ale najlepsze rozwiązanie jakie znalazłem, wykłada się w przypadku, gdy w jednej linii pliku znajduje się kilka URLi
Przy zalozeniu ze twoje url zaczynaja sie od http:// to
grep -ohP '<img src="(.*?)"' file.html | grep -ohP 'https?://([a-z\-\/]*\.?)*'
Nie zaczyna się, zawiera cyferki w nazwie domeny i "podłogę" w nazwie pliku. Zmodyfikowałem i zosatwiam dla potomnych:
Powered by Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)