Czy jest lepsze narzędzie do przechwytywania i usuwania HTML niż CGI dla Ruby?

CGI.escapeHTML jest dość źle, ale CGI.unescapeHTML jest całkowicie zdewastowany. Na przykład:Czy jest lepsze narzędzie do przechwytywania i usuwania HTML niż CGI dla Ruby?

require 'cgi' 

CGI.unescapeHTML('&#8230;') 
# => "…"     # correct - an ellipsis 

CGI.unescapeHTML('&hellip;') 
# => "&hellip;"    # should be "…" 

CGI.unescapeHTML('&#162;') 
# => "\242"     # correct - a cent 

CGI.unescapeHTML('&cent;') 
# => "&cent;"    # should be "\242" 

CGI.escapeHTML("…") 
# => "…"     # should be "&#8230;"

Wydaje się, że unescapeHTML wie o wszystkich kodów numerycznych oraz &, <, > i ". A escapeHTML zna tylko te ostatnie cztery - nie wykonuje żadnego z kodów numerycznych. Rozumiem, że generowanie poleceń generalnie nie musi być tak solidne, ponieważ HTML zezwala na dosłowne wersje większości znaków poza tymi czterema, o których wie, że są one znane. Ale zejście na prostą powinno być naprawdę lepsze.

Czy istnieje lepsze narzędzie, przynajmniej do tego, aby je usunąć?

Źródło

2008-12-18 James A. Rosen

To nie obsługuje — albo. – Chloe

Klejnot htmlentities powinno załatwić sprawę:

require 'rubygems' 
require 'htmlentities' 

coder = HTMLEntities.new 

coder.decode('&#8230;') # => "…" 
coder.decode('&hellip;') # => "…" 
coder.decode('&#162;') # => "¢" 
coder.decode('&cent;') # => "¢" 
coder.encode("…", :named) # => "&hellip;" 
coder.encode("…", :decimal) # => "&#8230;"

Źródło

2008-12-20 18:17:41 titanous

require 'rubygems' 
require 'hpricot' 

Hpricot('&#8230;', :xhtml_strict => true).to_plain_text

Chociaż może zajść potrzeba manipulowania kodowaniem znaków.

Źródło

2008-12-18 23:21:06

Użyj klejnotu htmlentities zamiast hpricot. –

Czy jest lepsze narzędzie do przechwytywania i usuwania HTML niż CGI dla Ruby?

Odpowiedz

Powiązane problemy