Скачиваем сайты с помощью Wget. Информация для новичков.
Казалось бы, ввести в терминале wget [сайт]. Но цель - выкачать не только одну отдельную страницу, а сайт целиком. Тут сложнее. Конечно, можно выкачивать по одной странице за раз, но это муторно. Благо, в Linux все очень просто, хотя на первый взгляд очень запутанно.
Итак, что такое Wget? Wget — это утилита, которая предназначена для загрузки файлов по сети. В нашем случае будем качать несколько html-страниц.
Чтобы скачать сайт целиком с помощью wget нужно выполнить команду:
wget -r -k -l 7 -p -E -nc old-dos.ru/
Old-dos.ru замените на нужный сайт. И да, адрес я взял из башки.
-r — указывает на то, что нужно рекурсивно переходить по ссылкам на сайте, чтобы скачивать страницы.
-k — используется для того, чтобы wget преобразовал все ссылки в скаченных файлах таким образом, чтобы по ним можно было переходить на локальном компьютере (в автономном режиме).
-p — указывает на то, что нужно загрузить все файлы, которые требуются для отображения страниц (изображения, css и т.д.).
-l — определяет максимальную глубину вложенности страниц, которые wget должен скачать (по умолчанию значение равно 5, в примере мы установили 7). В большинстве случаев сайты имеют страницы с большой степенью вложенности и wget может просто «закопаться», скачивая новые страницы. Чтобы этого не произошло можно использовать параметр -l.
-E — добавлять к загруженным файлам расширение .html.
-nc — при использовании данного параметра существующие файлы не будут перезаписаны. Это удобно, когда нужно продолжить загрузку сайта, прерванную в предыдущий раз.
Задачка). Отыщите скачанный сайт. Зы. Открывать файл index.html.
Для получения дополнительной информации выполните: man wget
Казалось бы, ввести в терминале wget [сайт]. Но цель - выкачать не только одну отдельную страницу, а сайт целиком. Тут сложнее. Конечно, можно выкачивать по одной странице за раз, но это муторно. Благо, в Linux все очень просто, хотя на первый взгляд очень запутанно.
Итак, что такое Wget? Wget — это утилита, которая предназначена для загрузки файлов по сети. В нашем случае будем качать несколько html-страниц.
Чтобы скачать сайт целиком с помощью wget нужно выполнить команду:
wget -r -k -l 7 -p -E -nc old-dos.ru/
Old-dos.ru замените на нужный сайт. И да, адрес я взял из башки.
-r — указывает на то, что нужно рекурсивно переходить по ссылкам на сайте, чтобы скачивать страницы.
-k — используется для того, чтобы wget преобразовал все ссылки в скаченных файлах таким образом, чтобы по ним можно было переходить на локальном компьютере (в автономном режиме).
-p — указывает на то, что нужно загрузить все файлы, которые требуются для отображения страниц (изображения, css и т.д.).
-l — определяет максимальную глубину вложенности страниц, которые wget должен скачать (по умолчанию значение равно 5, в примере мы установили 7). В большинстве случаев сайты имеют страницы с большой степенью вложенности и wget может просто «закопаться», скачивая новые страницы. Чтобы этого не произошло можно использовать параметр -l.
-E — добавлять к загруженным файлам расширение .html.
-nc — при использовании данного параметра существующие файлы не будут перезаписаны. Это удобно, когда нужно продолжить загрузку сайта, прерванную в предыдущий раз.
Задачка). Отыщите скачанный сайт. Зы. Открывать файл index.html.
Для получения дополнительной информации выполните: man wget
Автор:
Михаил Краснов