Страница 1 из 1
Как скачать с сайта только текстовую информацию wget-ом
Добавлено: 2011-05-26 11:16:53
korbnik
Добрый день!
Можно ли из сайта только текстовую информацию скачать wget-ом?
Если да, то как это сделать?
Заранее благодарен.
Re: Как скачать с сайта только текстовую информацию wget-ом
Добавлено: 2011-05-26 11:26:17
vadim64
пожалуйста, поставьте вопрос более развёрнуто
Re: Как скачать с сайта только текстовую информацию wget-ом
Добавлено: 2011-05-27 7:39:39
Charlz_Klug_
Непосредственно wget'ом не получилось, но есть альтернативный способ. Взято
отсюда:
I did, however, find a pretty easy way of getting only text from a particular page, but not with wget. I used this, basically:
lynx -dump
http://www.website.com > dumpfile
И моя проба:
Код: Выделить всё
$ lynx -dump www.lissyara.su > 1.txt
$ cat 1.txt
#[1]Новости сайта www.lissyara.su
Мы -- долго запрягаем, быстро ездим, и сильно тормозим.
[2]Главная
|
[3]Форум
|
[4]Статьи
|
[5]Документация
|
[6]search
|
[7]RSS
|
[8]WIKI
|
[9]hosting
|
[10]Версия для печати
[11]Авторы
[12]История сайта
[13]Статистика
[14]Архив
[15]Карта сайта
[16]поисковые слова
[17]Личные настройки
[18]Реклама
[19]Друзья сайта
[20]зоотовары, интернет зоомагазин Доберман
[blank.gif] [blank.gif] [21]www.lissyara.su --> [22]главная
главная
Этот сайт начался как записная книжка. Просто записи для самого
себя - чтобы не забыть, что и как, где подкрутить чтобы заработало -
раньше в рунете информацию приходилось искать днём с огнём =). Да и на
php хотелось научиться программить. В какой-то момент выяснилось, что
интересно это не только мне но и куче других людей, которые приходили с
поисковиков или по ссылкам с других форумов/сайтов близкой тематики.
Кто-то тоже захотел написать статью ([23]ALex_hha) - пришлось за пару
дней настругать какую-никакую админку. Дальше всё вышло из-под контроля
=)
Через некоторое время завёл форум - чтоб был. Через пару лет на нём
появились постоянные посетители, кроме меня =)
Сайчас, с появлением wiki, и массы сайтов аналогичной тематики в
рунете сайт уже не так актуален - это видно по народу в форуме - многие
удивляются, "а тут ещё и сайт есть" =) Тем не менее, если что-то
попадается интересное - записываю. Уже даже не для себя - как-то проще
стало с годами проблемы решать - не надо пошаговых инструкций, не надо
копи-паста - как-то само всё получается. Но - кто-то тока начинает. А
кому-то думать лень =) наверное, такая вот аудитория у этого сайта =)
[blank.gif] [blank.gif]
[24]Хостинг HOST-FOOD
2011-03-13, [25]terminus
[26]ng_nat
Описание работы ng_nat, практическое использование, достоинства и
недостатки в сравнении с ipfw nat
__________________________________________________________________
2011-02-20, [27]Капитан
[28]Nagios+Digitemp
Статья описывает создание системы оповещения о превышении температуры в
специальных помещениях на основе Nagios с использованием программы
Digitemp.
__________________________________________________________________
подписка
Отправить
[29]вверх
Статистика сайта
Сейчас на сайте находится: 29 чел.
За последние 30 мин было: 116 человек
За сегодня было
4000 показов,
845 уникальных IP
Этот информационный блок появился по той простой причине, что многие
считают нормальным, брать чужую информацию не уведомляя автора (что не
так страшно), и не оставляя линк на оригинал и автора -- что более
существенно. Я не против распространения информации -- только за.
Только условие простое -- извольте подписывать автора, и оставлять линк
на оригинальную страницу в виде прямой, активной, нескриптовой,
незакрытой от индексирования, и не запрещенной для следования роботов
ссылки.
Если соизволите поставить автора в известность -- то вообще почёт вам
и уважение.
© lissyara 2006-10-24 08:47 MSK
[blank.gif]
Время генерации страницы 0.1626 секунд
Из них PHP: 44%; SQL: 56%; Число SQL-запросов: 43 шт.
У Вас отключено GZIP-сжатие в браузере. Размер страницы 27776
References
1. http://www.lissyara.su/scripts/rss.php
2. http://www.lissyara.su/
3. http://forum.lissyara.su/
4. http://www.lissyara.su/articles/
5. http://www.lissyara.su/doc/
6. http://www.lissyara.su/search/
7. http://www.lissyara.su/rss/
8. http://wiki.lissyara.su/
9. http://www.host-food.ru/
10. http://www.lissyara.su/?commented=1&print=1
11. http://www.lissyara.su/?id=1025
12. http://www.lissyara.su/?id=1038
13. http://www.lissyara.su/?id=1142
14. http://www.lissyara.su/?id=1174
15. http://www.lissyara.su/?id=1302
16. http://www.lissyara.su/?id=1367
17. http://www.lissyara.su/?id=1377
18. http://www.lissyara.su/?id=1384
19. http://www.lissyara.su/?id=1797
20. http://www.magazindoberman.ru/
21. http://www.lissyara.su/?id=1000
22. http://www.lissyara.su/?id=1001
23. http://www.lissyara.su/authors/2005/alex_hha/
24. http://www.host-food.ru/
25. http://www.lissyara.su/authors/2008/terminus/
26. http://www.lissyara.su/articles/freebsd/tuning/ng_nat/
27. http://www.lissyara.su/authors/2011/captain/
28. http://www.lissyara.su/articles/freebsd/programms/nagios+digitemp/
29. http://www.lissyara.su/#top
$
Re: Как скачать с сайта только текстовую информацию wget-ом
Добавлено: 2011-05-27 8:54:43
korbnik
vadim64 писал(а):пожалуйста, поставьте вопрос более развёрнуто
Мне нужно с сайта скачать всю информация кроме графики, музыки и видео, то есть всё кроме файлов двоичной информации. Короче говоря скачать нужно обязательно всё что касается html и другая текстовая информация.
Re: Как скачать с сайта только текстовую информацию wget-ом
Добавлено: 2011-05-27 8:58:13
korbnik
Charlz_Klug_ писал(а):Непосредственно wget'ом не получилось, но есть альтернативный способ. Взято
отсюда:
I did, however, find a pretty easy way of getting only text from a particular page, but not with wget. I used this, basically:
lynx -dump
http://www.website.com > dumpfile
И моя проба:
Код: Выделить всё
$ lynx -dump www.lissyara.su > 1.txt
$ cat 1.txt
...........................................
Нет это не подходит, нужно тогда по всем ссылкам ходит и делать это вручную, а мне надо автоматически.
Re: Как скачать с сайта только текстовую информацию wget-ом
Добавлено: 2011-05-27 9:08:22
Гость
curl
Re: Как скачать с сайта только текстовую информацию wget-ом
Добавлено: 2011-05-27 9:40:07
Bayerische
wget -r -nc -np -Rrar,zip,exe,css,jpg,jpeg,gif,png,avi,mov,swf http://блаблабла
Re: Как скачать с сайта только текстовую информацию wget-ом
Добавлено: 2011-05-27 10:00:22
korbnik
Гость писал(а):curl
Выдержка из wikipedia
Код: Выделить всё
Возможности
Прежде всего, необходимо сказать, что cURL — не сайтокачалка типа Teleport Pro и не умеет целиком выкачивать содержимое сайта.[3]
Программа cURL может автоматизировать передачу файлов или последовательность таких операций. Например, это хорошее средство для моделирования действий пользователя в веб-обозревателе.
Re: Как скачать с сайта только текстовую информацию wget-ом
Добавлено: 2011-05-27 10:44:06
Гость
и че? задача curl'ом решается, sed'ом допиливается под конкретные нужды. если тебя это не устраивает, то напиши свою прогу
в портах то уж такой точно нет
Re: Как скачать с сайта только текстовую информацию wget-ом
Добавлено: 2011-05-27 19:48:42
FiL
Bayerische писал(а):wget -r -nc -np -Rrar,zip,exe,css,jpg,jpeg,gif,png,avi,mov,swf http://блаблабла
лучше -E -A.htm,.html,.txt
ну и можно добавить всякие там .php и .asp если надо.
Re: Как скачать с сайта только текстовую информацию wget-ом
Добавлено: 2011-05-27 20:56:26
Bayerische
Ну, можно и с обратной стороны, суть не меняется. wget самодостаточная софтина для вытягивания нужных данных.