модуль для очистки HTML perl

И всё прочее, что касается HTML
Правила форума
Убедительная просьба юзать теги [code] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.
Аватара пользователя
ProFTP
подполковник
Сообщения: 3388
Зарегистрирован: 2008-04-13 1:50:04
Откуда: %&й
Контактная информация:

модуль для очистки HTML perl

Непрочитанное сообщение ProFTP » 2009-03-27 14:34:31

http://ru.wikipedia.org/wiki/Межсайтовый_скриптинг

подскжаите как очистить текст от тэгов разных, чтобы был только только текст, велосипед писать не хочется, в гугле нашел по разному... может есть готовое на cpan.org? (я раньше использовал 2 регулярки)

вот есть модуль:
http://search.cpan.org/~podmaster/HTML- ... crubber.pm

я не знаю как его настроить или как проверить праивльно ли он работает...
Pеrl FAQ
perl -e 'print join"",map $$_[rand@$_],([0..9,'a'..'z','A'..'Z'])x30'
ИзображениеИзображение

Хостинговая компания Host-Food.ru
Хостинг HostFood.ru
 

Услуги хостинговой компании Host-Food.ru

Хостинг HostFood.ru

Тарифы на хостинг в России, от 12 рублей: https://www.host-food.ru/tariffs/hosting/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2000 рублей (HP Proliant G5, Intel Xeon E5430 (2.66GHz, Quad-Core, 12Mb), 8Gb RAM, 2x300Gb SAS HDD, P400i, 512Mb, BBU):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/

zg
полковник
Сообщения: 5845
Зарегистрирован: 2007-12-07 13:51:33
Откуда: Верх-Нейвинск

Re: модуль для очистки HTML perl

Непрочитанное сообщение zg » 2009-03-27 17:02:09

та не парься -))) проблема решается много проще, надо эскейпь пять символов

Код: Выделить всё

            '&'  => '&' , 
            '"'  => '"', 
            '\'' => ''', 
            '<'  => '<'  , 
            '>'  => '>'
это намного лучше чем стрипать тэги

Аватара пользователя
ProFTP
подполковник
Сообщения: 3388
Зарегистрирован: 2008-04-13 1:50:04
Откуда: %&й
Контактная информация:

Re: модуль для очистки HTML perl

Непрочитанное сообщение ProFTP » 2009-04-21 9:03:51

вот еще нашел, говорят с форума ikonboard

Код: Выделить всё

sub clean {
    my $Tmp = shift;
    return '' unless defined $Tmp;
    $Tmp =~ s|&|&|g;
    $Tmp =~ s|<!--|<&#33;--|g; $Tmp =~ s|-->|-->|g;
    $Tmp =~ s|<script|<script|ig;
    $Tmp =~ s|>|>|g;
    $Tmp =~ s|<|<|g;
    $Tmp =~ s|"|"|g;
    $Tmp =~ s!^\s+!!;
    $Tmp =~ s!\s+$!!;
    $Tmp =~ s|  | &nbsp;|g;
    $Tmp =~ s!\|!&#124;!g;
    $Tmp =~ s|\n|<br>|g;
    $Tmp =~ s|\$|&#036;|g;
    $Tmp =~ s|\r||g;
    $Tmp =~ s|\_\_(.+?)\_\_||g;
    $Tmp =~ s|\\|&#92;|g;
    $Tmp =~ s|!|&#33;|g;
    $Tmp =~ s|\'|'|g;
    return $Tmp;
}
 
Pеrl FAQ
perl -e 'print join"",map $$_[rand@$_],([0..9,'a'..'z','A'..'Z'])x30'
ИзображениеИзображение

mazay
проходил мимо

Re: модуль для очистки HTML perl

Непрочитанное сообщение mazay » 2009-04-21 16:27:17

Знаю что для граббинга интернет страниц используют LWP::Simple
есть на CPAN

Аватара пользователя
thefree
лейтенант
Сообщения: 980
Зарегистрирован: 2008-12-29 9:23:19
Откуда: Весёлая Страна

Re: модуль для очистки HTML perl

Непрочитанное сообщение thefree » 2009-04-21 21:42:41

Не судите меня строго, Я не волшебник, а только учусь!
http://planetbsd.ru - RSS-агрегатор *BSD по Рунету