[linux] Wygrepowanie URLi do obrazów z pliku HTML |
[linux] Wygrepowanie URLi do obrazów z pliku HTML |
20.10.2022, 12:24:50
Post
#1
|
|
Grupa: Zarejestrowani Postów: 128 Pomógł: 0 Dołączył: 18.09.2021 Ostrzeżenie: (0%) |
Nie wiem, czy to dobry dział i czy dobrą metodą (linuxowa konsola) próbuję zrealizować to zadanie.
Czy ktoś z Was ma pod ręką regexp/polecenie dla grepa, żeby z pliku .html wygrepować urle (wartość atrybutu src dla <img>) z pliku HTML? Googlowałem ale najlepsze rozwiązanie jakie znalazłem, wykłada się w przypadku, gdy w jednej linii pliku znajduje się kilka URLi |
|
|
20.10.2022, 14:05:31
Post
#2
|
|
Grupa: Moderatorzy Postów: 36 519 Pomógł: 6308 Dołączył: 27.12.2004 |
Przy zalozeniu ze twoje url zaczynaja sie od http:// to
grep -ohP '<img src="(.*?)"' file.html | grep -ohP 'https?://([a-z\-\/]*\.?)*' -------------------- "Myśl, myśl, myśl..." - Kubuś Puchatek || "Manual, manual, manual..." - Kubuś Programista "Szukaj, szukaj, szukaj..." - Kubuś Odkrywca || "Debuguj, debuguj, debuguj..." - Kubuś Developer |
|
|
20.10.2022, 16:32:44
Post
#3
|
|
Grupa: Zarejestrowani Postów: 128 Pomógł: 0 Dołączył: 18.09.2021 Ostrzeżenie: (0%) |
Nie zaczyna się, zawiera cyferki w nazwie domeny i "podłogę" w nazwie pliku. Zmodyfikowałem i zosatwiam dla potomnych:
Kod grep -ohP 'src="(.*?)"' index.html | grep -ohP 'https?://([0-9a-z\-\_\/]*\.?)*' Dzięki! |
|
|
Wersja Lo-Fi | Aktualny czas: 26.09.2024 - 13:01 |