Как скачать с сайта только текстовую информацию wget-ом
Правила форума
Убедительная просьба юзать теги [cоde] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.
Убедительная просьба юзать теги [cоde] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.
- korbnik
- сержант
- Сообщения: 267
- Зарегистрирован: 2008-03-25 14:29:08
- Откуда: Москва
- Контактная информация:
Как скачать с сайта только текстовую информацию wget-ом
Добрый день!
Можно ли из сайта только текстовую информацию скачать wget-ом?
Если да, то как это сделать?
Заранее благодарен.
Можно ли из сайта только текстовую информацию скачать wget-ом?
Если да, то как это сделать?
Заранее благодарен.
-= ФриБииСДи! И не БиСДи! =- Copyright (Korenev Boris)
Услуги хостинговой компании Host-Food.ru
Тарифы на хостинг в России, от 12 рублей: https://www.host-food.ru/tariffs/hosting/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/
- vadim64
- майор
- Сообщения: 2101
- Зарегистрирован: 2009-09-17 15:15:26
- Откуда: Засратовец
Re: Как скачать с сайта только текстовую информацию wget-ом
пожалуйста, поставьте вопрос более развёрнуто
Люди не делятся на национальности, партии, фракции и религии. Люди делятся на умных и дураков, а вот дураки делятся на национальности, партии, фракции и религии.
-
- проходил мимо
Re: Как скачать с сайта только текстовую информацию wget-ом
Непосредственно wget'ом не получилось, но есть альтернативный способ. Взято отсюда:
И моя проба:I did, however, find a pretty easy way of getting only text from a particular page, but not with wget. I used this, basically:
lynx -dump http://www.website.com > dumpfile
Код: Выделить всё
$ lynx -dump www.lissyara.su > 1.txt
$ cat 1.txt
#[1]Новости сайта www.lissyara.su
Мы -- долго запрягаем, быстро ездим, и сильно тормозим.
[2]Главная
|
[3]Форум
|
[4]Статьи
|
[5]Документация
|
[6]search
|
[7]RSS
|
[8]WIKI
|
[9]hosting
|
[10]Версия для печати
[11]Авторы
[12]История сайта
[13]Статистика
[14]Архив
[15]Карта сайта
[16]поисковые слова
[17]Личные настройки
[18]Реклама
[19]Друзья сайта
[20]зоотовары, интернет зоомагазин Доберман
[blank.gif] [blank.gif] [21]www.lissyara.su --> [22]главная
главная
Этот сайт начался как записная книжка. Просто записи для самого
себя - чтобы не забыть, что и как, где подкрутить чтобы заработало -
раньше в рунете информацию приходилось искать днём с огнём =). Да и на
php хотелось научиться программить. В какой-то момент выяснилось, что
интересно это не только мне но и куче других людей, которые приходили с
поисковиков или по ссылкам с других форумов/сайтов близкой тематики.
Кто-то тоже захотел написать статью ([23]ALex_hha) - пришлось за пару
дней настругать какую-никакую админку. Дальше всё вышло из-под контроля
=)
Через некоторое время завёл форум - чтоб был. Через пару лет на нём
появились постоянные посетители, кроме меня =)
Сайчас, с появлением wiki, и массы сайтов аналогичной тематики в
рунете сайт уже не так актуален - это видно по народу в форуме - многие
удивляются, "а тут ещё и сайт есть" =) Тем не менее, если что-то
попадается интересное - записываю. Уже даже не для себя - как-то проще
стало с годами проблемы решать - не надо пошаговых инструкций, не надо
копи-паста - как-то само всё получается. Но - кто-то тока начинает. А
кому-то думать лень =) наверное, такая вот аудитория у этого сайта =)
[blank.gif] [blank.gif]
[24]Хостинг HOST-FOOD
2011-03-13, [25]terminus
[26]ng_nat
Описание работы ng_nat, практическое использование, достоинства и
недостатки в сравнении с ipfw nat
__________________________________________________________________
2011-02-20, [27]Капитан
[28]Nagios+Digitemp
Статья описывает создание системы оповещения о превышении температуры в
специальных помещениях на основе Nagios с использованием программы
Digitemp.
__________________________________________________________________
подписка
Отправить
[29]вверх
Статистика сайта
Сейчас на сайте находится: 29 чел.
За последние 30 мин было: 116 человек
За сегодня было
4000 показов,
845 уникальных IP
Этот информационный блок появился по той простой причине, что многие
считают нормальным, брать чужую информацию не уведомляя автора (что не
так страшно), и не оставляя линк на оригинал и автора -- что более
существенно. Я не против распространения информации -- только за.
Только условие простое -- извольте подписывать автора, и оставлять линк
на оригинальную страницу в виде прямой, активной, нескриптовой,
незакрытой от индексирования, и не запрещенной для следования роботов
ссылки.
Если соизволите поставить автора в известность -- то вообще почёт вам
и уважение.
© lissyara 2006-10-24 08:47 MSK
[blank.gif]
Время генерации страницы 0.1626 секунд
Из них PHP: 44%; SQL: 56%; Число SQL-запросов: 43 шт.
У Вас отключено GZIP-сжатие в браузере. Размер страницы 27776
References
1. http://www.lissyara.su/scripts/rss.php
2. http://www.lissyara.su/
3. http://forum.lissyara.su/
4. http://www.lissyara.su/articles/
5. http://www.lissyara.su/doc/
6. http://www.lissyara.su/search/
7. http://www.lissyara.su/rss/
8. http://wiki.lissyara.su/
9. http://www.host-food.ru/
10. http://www.lissyara.su/?commented=1&print=1
11. http://www.lissyara.su/?id=1025
12. http://www.lissyara.su/?id=1038
13. http://www.lissyara.su/?id=1142
14. http://www.lissyara.su/?id=1174
15. http://www.lissyara.su/?id=1302
16. http://www.lissyara.su/?id=1367
17. http://www.lissyara.su/?id=1377
18. http://www.lissyara.su/?id=1384
19. http://www.lissyara.su/?id=1797
20. http://www.magazindoberman.ru/
21. http://www.lissyara.su/?id=1000
22. http://www.lissyara.su/?id=1001
23. http://www.lissyara.su/authors/2005/alex_hha/
24. http://www.host-food.ru/
25. http://www.lissyara.su/authors/2008/terminus/
26. http://www.lissyara.su/articles/freebsd/tuning/ng_nat/
27. http://www.lissyara.su/authors/2011/captain/
28. http://www.lissyara.su/articles/freebsd/programms/nagios+digitemp/
29. http://www.lissyara.su/#top
$
- korbnik
- сержант
- Сообщения: 267
- Зарегистрирован: 2008-03-25 14:29:08
- Откуда: Москва
- Контактная информация:
Re: Как скачать с сайта только текстовую информацию wget-ом
Мне нужно с сайта скачать всю информация кроме графики, музыки и видео, то есть всё кроме файлов двоичной информации. Короче говоря скачать нужно обязательно всё что касается html и другая текстовая информация.vadim64 писал(а):пожалуйста, поставьте вопрос более развёрнуто
-= ФриБииСДи! И не БиСДи! =- Copyright (Korenev Boris)
- korbnik
- сержант
- Сообщения: 267
- Зарегистрирован: 2008-03-25 14:29:08
- Откуда: Москва
- Контактная информация:
Re: Как скачать с сайта только текстовую информацию wget-ом
Нет это не подходит, нужно тогда по всем ссылкам ходит и делать это вручную, а мне надо автоматически.Charlz_Klug_ писал(а):Непосредственно wget'ом не получилось, но есть альтернативный способ. Взято отсюда:И моя проба:I did, however, find a pretty easy way of getting only text from a particular page, but not with wget. I used this, basically:
lynx -dump http://www.website.com > dumpfileКод: Выделить всё
$ lynx -dump www.lissyara.su > 1.txt $ cat 1.txt ...........................................
-= ФриБииСДи! И не БиСДи! =- Copyright (Korenev Boris)
-
- проходил мимо
-
- капитан
- Сообщения: 1820
- Зарегистрирован: 2010-12-25 20:41:50
- Откуда: Хлебная столица
Re: Как скачать с сайта только текстовую информацию wget-ом
wget -r -nc -np -Rrar,zip,exe,css,jpg,jpeg,gif,png,avi,mov,swf http://блаблабла
- korbnik
- сержант
- Сообщения: 267
- Зарегистрирован: 2008-03-25 14:29:08
- Откуда: Москва
- Контактная информация:
Re: Как скачать с сайта только текстовую информацию wget-ом
Выдержка из wikipediaГость писал(а):curl
Код: Выделить всё
Возможности
Прежде всего, необходимо сказать, что cURL — не сайтокачалка типа Teleport Pro и не умеет целиком выкачивать содержимое сайта.[3]
Программа cURL может автоматизировать передачу файлов или последовательность таких операций. Например, это хорошее средство для моделирования действий пользователя в веб-обозревателе.
-= ФриБииСДи! И не БиСДи! =- Copyright (Korenev Boris)
-
- проходил мимо
Re: Как скачать с сайта только текстовую информацию wget-ом
и че? задача curl'ом решается, sed'ом допиливается под конкретные нужды. если тебя это не устраивает, то напиши свою прогу
в портах то уж такой точно нет
в портах то уж такой точно нет
-
- ст. лейтенант
- Сообщения: 1374
- Зарегистрирован: 2010-02-05 0:21:40
Re: Как скачать с сайта только текстовую информацию wget-ом
лучше -E -A.htm,.html,.txtBayerische писал(а):wget -r -nc -np -Rrar,zip,exe,css,jpg,jpeg,gif,png,avi,mov,swf http://блаблабла
ну и можно добавить всякие там .php и .asp если надо.
-
- капитан
- Сообщения: 1820
- Зарегистрирован: 2010-12-25 20:41:50
- Откуда: Хлебная столица
Re: Как скачать с сайта только текстовую информацию wget-ом
Ну, можно и с обратной стороны, суть не меняется. wget самодостаточная софтина для вытягивания нужных данных.