Страница 1 из 1

модуль для очистки HTML perl

Добавлено: 2009-03-27 14:34:31
ProFTP
http://ru.wikipedia.org/wiki/Межсайтовый_скриптинг

подскжаите как очистить текст от тэгов разных, чтобы был только только текст, велосипед писать не хочется, в гугле нашел по разному... может есть готовое на cpan.org? (я раньше использовал 2 регулярки)

вот есть модуль:
http://search.cpan.org/~podmaster/HTML- ... crubber.pm

я не знаю как его настроить или как проверить праивльно ли он работает...

Re: модуль для очистки HTML perl

Добавлено: 2009-03-27 17:02:09
zg
та не парься -))) проблема решается много проще, надо эскейпь пять символов

Код: Выделить всё

            '&'  => '&' , 
            '"'  => '"', 
            '\'' => ''', 
            '<'  => '<'  , 
            '>'  => '>'
это намного лучше чем стрипать тэги

Re: модуль для очистки HTML perl

Добавлено: 2009-04-21 9:03:51
ProFTP
вот еще нашел, говорят с форума ikonboard

Код: Выделить всё

sub clean {
    my $Tmp = shift;
    return '' unless defined $Tmp;
    $Tmp =~ s|&|&|g;
    $Tmp =~ s|<!--|<&#33;--|g; $Tmp =~ s|-->|-->|g;
    $Tmp =~ s|<script|<script|ig;
    $Tmp =~ s|>|>|g;
    $Tmp =~ s|<|<|g;
    $Tmp =~ s|"|"|g;
    $Tmp =~ s!^\s+!!;
    $Tmp =~ s!\s+$!!;
    $Tmp =~ s|  | &nbsp;|g;
    $Tmp =~ s!\|!&#124;!g;
    $Tmp =~ s|\n|<br>|g;
    $Tmp =~ s|\$|&#036;|g;
    $Tmp =~ s|\r||g;
    $Tmp =~ s|\_\_(.+?)\_\_||g;
    $Tmp =~ s|\\|&#92;|g;
    $Tmp =~ s|!|&#33;|g;
    $Tmp =~ s|\'|'|g;
    return $Tmp;
}
 

Re: модуль для очистки HTML perl

Добавлено: 2009-04-21 16:27:17
mazay
Знаю что для граббинга интернет страниц используют LWP::Simple
есть на CPAN

Re: модуль для очистки HTML perl

Добавлено: 2009-04-21 21:42:41
thefree