Как скачать с сайта только текстовую информацию wget-ом

Простые/общие вопросы по UNIX системам. Спросите здесь, если вы новичок

Модераторы: vadim64, terminus

Правила форума
Убедительная просьба юзать теги [cоde] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.
Аватара пользователя
korbnik
сержант
Сообщения: 263
Зарегистрирован: 2008-03-25 14:29:08
Откуда: Москва
Контактная информация:

Как скачать с сайта только текстовую информацию wget-ом

Непрочитанное сообщение korbnik » 2011-05-26 11:16:53

Добрый день!

Можно ли из сайта только текстовую информацию скачать wget-ом?
Если да, то как это сделать?

Заранее благодарен.
-= ФриБииСДи! И не БиСДи! =- Copyright (Korenev Boris)

Хостинговая компания Host-Food.ru
Хостинг HostFood.ru
 

Услуги хостинговой компании Host-Food.ru

Хостинг HostFood.ru

Тарифы на хостинг в России, от 12 рублей: https://www.host-food.ru/tariffs/hosting/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/

Аватара пользователя
vadim64
майор
Сообщения: 2101
Зарегистрирован: 2009-09-17 15:15:26
Откуда: Засратовец

Re: Как скачать с сайта только текстовую информацию wget-ом

Непрочитанное сообщение vadim64 » 2011-05-26 11:26:17

пожалуйста, поставьте вопрос более развёрнуто
Люди не делятся на национальности, партии, фракции и религии. Люди делятся на умных и дураков, а вот дураки делятся на национальности, партии, фракции и религии.

Charlz_Klug_
проходил мимо

Re: Как скачать с сайта только текстовую информацию wget-ом

Непрочитанное сообщение Charlz_Klug_ » 2011-05-27 7:39:39

Непосредственно wget'ом не получилось, но есть альтернативный способ. Взято отсюда:
I did, however, find a pretty easy way of getting only text from a particular page, but not with wget. I used this, basically:

lynx -dump http://www.website.com > dumpfile
И моя проба:

Код: Выделить всё

$ lynx -dump www.lissyara.su > 1.txt
$ cat 1.txt
   #[1]Новости сайта www.lissyara.su

   Мы -- долго запрягаем, быстро ездим, и сильно тормозим.


   [2]Главная

   |
   [3]Форум

   |
   [4]Статьи

   |
   [5]Документация

   |
   [6]search

   |
   [7]RSS

   |
   [8]WIKI

   |
   [9]hosting

   |
   [10]Версия для печати
   [11]Авторы
   [12]История сайта
   [13]Статистика
   [14]Архив
   [15]Карта сайта
   [16]поисковые слова
   [17]Личные настройки
   [18]Реклама
   [19]Друзья сайта

                 [20]зоотовары, интернет зоомагазин Доберман

   [blank.gif] [blank.gif] [21]www.lissyara.su --> [22]главная

                                   главная

       Этот сайт начался как записная книжка. Просто записи для самого
   себя - чтобы не забыть, что и как, где подкрутить чтобы заработало -
   раньше в рунете информацию приходилось искать днём с огнём =). Да и на
   php хотелось научиться программить. В какой-то момент выяснилось, что
   интересно это не только мне но и куче других людей, которые приходили с
   поисковиков или по ссылкам с других форумов/сайтов близкой тематики.
   Кто-то тоже захотел написать статью ([23]ALex_hha) - пришлось за пару
   дней настругать какую-никакую админку. Дальше всё вышло из-под контроля
   =)
      Через некоторое время завёл форум - чтоб был. Через пару лет на нём
   появились постоянные посетители, кроме меня =)
      Сайчас, с появлением wiki, и массы сайтов аналогичной тематики в
   рунете сайт уже не так актуален - это видно по народу в форуме - многие
   удивляются, "а тут ещё и сайт есть" =) Тем не менее, если что-то
   попадается интересное - записываю. Уже даже не для себя - как-то проще
   стало с годами проблемы решать - не надо пошаговых инструкций, не надо
   копи-паста - как-то само всё получается. Но - кто-то тока начинает. А
   кому-то думать лень =) наверное, такая вот аудитория у этого сайта =)

   [blank.gif] [blank.gif]

                            [24]Хостинг HOST-FOOD

   2011-03-13, [25]terminus
   [26]ng_nat
   Описание работы ng_nat, практическое использование, достоинства и
   недостатки в сравнении с ipfw nat
     __________________________________________________________________

   2011-02-20, [27]Капитан
   [28]Nagios+Digitemp
   Статья описывает создание системы оповещения о превышении температуры в
   специальных помещениях на основе Nagios с использованием программы
   Digitemp.
     __________________________________________________________________


                                 подписка
                                 Отправить

       [29]вверх

             Статистика сайта
   Сейчас на сайте находится: 29 чел.
   За последние 30 мин было: 116 человек
   За сегодня было
   4000 показов,
   845 уникальных IP


     Этот информационный блок появился по той простой причине, что многие
   считают нормальным, брать чужую информацию не уведомляя автора (что не
   так страшно), и не оставляя линк на оригинал и автора -- что более
   существенно. Я не против распространения информации -- только за.
   Только условие простое -- извольте подписывать автора, и оставлять линк
   на оригинальную страницу в виде прямой, активной, нескриптовой,
   незакрытой от индексирования, и не запрещенной для следования роботов
   ссылки.
     Если соизволите поставить автора в известность -- то вообще почёт вам
   и уважение.

                                           © lissyara 2006-10-24 08:47 MSK
   [blank.gif]

                   Время генерации страницы 0.1626 секунд
            Из них PHP: 44%; SQL: 56%; Число SQL-запросов: 43 шт.
        У Вас отключено GZIP-сжатие в браузере. Размер страницы 27776

References

   1. http://www.lissyara.su/scripts/rss.php
   2. http://www.lissyara.su/
   3. http://forum.lissyara.su/
   4. http://www.lissyara.su/articles/
   5. http://www.lissyara.su/doc/
   6. http://www.lissyara.su/search/
   7. http://www.lissyara.su/rss/
   8. http://wiki.lissyara.su/
   9. http://www.host-food.ru/
  10. http://www.lissyara.su/?commented=1&print=1
  11. http://www.lissyara.su/?id=1025
  12. http://www.lissyara.su/?id=1038
  13. http://www.lissyara.su/?id=1142
  14. http://www.lissyara.su/?id=1174
  15. http://www.lissyara.su/?id=1302
  16. http://www.lissyara.su/?id=1367
  17. http://www.lissyara.su/?id=1377
  18. http://www.lissyara.su/?id=1384
  19. http://www.lissyara.su/?id=1797
  20. http://www.magazindoberman.ru/
  21. http://www.lissyara.su/?id=1000
  22. http://www.lissyara.su/?id=1001
  23. http://www.lissyara.su/authors/2005/alex_hha/
  24. http://www.host-food.ru/
  25. http://www.lissyara.su/authors/2008/terminus/
  26. http://www.lissyara.su/articles/freebsd/tuning/ng_nat/
  27. http://www.lissyara.su/authors/2011/captain/
  28. http://www.lissyara.su/articles/freebsd/programms/nagios+digitemp/
  29. http://www.lissyara.su/#top
$ 

Аватара пользователя
korbnik
сержант
Сообщения: 263
Зарегистрирован: 2008-03-25 14:29:08
Откуда: Москва
Контактная информация:

Re: Как скачать с сайта только текстовую информацию wget-ом

Непрочитанное сообщение korbnik » 2011-05-27 8:54:43

vadim64 писал(а):пожалуйста, поставьте вопрос более развёрнуто
Мне нужно с сайта скачать всю информация кроме графики, музыки и видео, то есть всё кроме файлов двоичной информации. Короче говоря скачать нужно обязательно всё что касается html и другая текстовая информация.
-= ФриБииСДи! И не БиСДи! =- Copyright (Korenev Boris)

Аватара пользователя
korbnik
сержант
Сообщения: 263
Зарегистрирован: 2008-03-25 14:29:08
Откуда: Москва
Контактная информация:

Re: Как скачать с сайта только текстовую информацию wget-ом

Непрочитанное сообщение korbnik » 2011-05-27 8:58:13

Charlz_Klug_ писал(а):Непосредственно wget'ом не получилось, но есть альтернативный способ. Взято отсюда:
I did, however, find a pretty easy way of getting only text from a particular page, but not with wget. I used this, basically:

lynx -dump http://www.website.com > dumpfile
И моя проба:

Код: Выделить всё

$ lynx -dump www.lissyara.su > 1.txt
$ cat 1.txt
...........................................  
Нет это не подходит, нужно тогда по всем ссылкам ходит и делать это вручную, а мне надо автоматически.
-= ФриБииСДи! И не БиСДи! =- Copyright (Korenev Boris)


Bayerische
капитан
Сообщения: 1820
Зарегистрирован: 2010-12-25 20:41:50
Откуда: Хлебная столица

Re: Как скачать с сайта только текстовую информацию wget-ом

Непрочитанное сообщение Bayerische » 2011-05-27 9:40:07

wget -r -nc -np -Rrar,zip,exe,css,jpg,jpeg,gif,png,avi,mov,swf http://блаблабла

Аватара пользователя
korbnik
сержант
Сообщения: 263
Зарегистрирован: 2008-03-25 14:29:08
Откуда: Москва
Контактная информация:

Re: Как скачать с сайта только текстовую информацию wget-ом

Непрочитанное сообщение korbnik » 2011-05-27 10:00:22

Гость писал(а):curl
Выдержка из wikipedia

Код: Выделить всё

Возможности

Прежде всего, необходимо сказать, что cURL — не сайтокачалка типа Teleport Pro и не умеет целиком выкачивать содержимое сайта.[3]

Программа cURL может автоматизировать передачу файлов или последовательность таких операций. Например, это хорошее средство для моделирования действий пользователя в веб-обозревателе.
-= ФриБииСДи! И не БиСДи! =- Copyright (Korenev Boris)

Гость
проходил мимо

Re: Как скачать с сайта только текстовую информацию wget-ом

Непрочитанное сообщение Гость » 2011-05-27 10:44:06

и че? задача curl'ом решается, sed'ом допиливается под конкретные нужды. если тебя это не устраивает, то напиши свою прогу
в портах то уж такой точно нет

FiL
ст. лейтенант
Сообщения: 1370
Зарегистрирован: 2010-02-05 0:21:40

Re: Как скачать с сайта только текстовую информацию wget-ом

Непрочитанное сообщение FiL » 2011-05-27 19:48:42

Bayerische писал(а):wget -r -nc -np -Rrar,zip,exe,css,jpg,jpeg,gif,png,avi,mov,swf http://блаблабла
лучше -E -A.htm,.html,.txt
ну и можно добавить всякие там .php и .asp если надо.

Bayerische
капитан
Сообщения: 1820
Зарегистрирован: 2010-12-25 20:41:50
Откуда: Хлебная столица

Re: Как скачать с сайта только текстовую информацию wget-ом

Непрочитанное сообщение Bayerische » 2011-05-27 20:56:26

Ну, можно и с обратной стороны, суть не меняется. wget самодостаточная софтина для вытягивания нужных данных.