2009-07-11 2 views
5

Próbuję użyć modułu perl XML :: RAI na kodowanym kodowaniu UTF8 i nadal mam błąd, którego tak naprawdę nie rozumiem ... tutaj jest kod (nie należy jeszcze zrobić coś pożytecznego):"Nie można dekodować łańcucha o szerokich znakach" pojawia się w dziwnym miejscu.

use HTTP::Request; 
use LWP::UserAgent; 
use XML::RAI; 
use Encode; 

my $ua = LWP::UserAgent->new; 


sub readFromWeb{ 
    my $address = shift; 
    my $request = HTTP::Request->new(GET => $address); 
    my $response = $ua->request($request); 
    return unless $response->code == 200; 

    return decode("utf8", $response->content()); 
} 

sub readFromRSS{ 
    my $address=shift; 
    my $content = readFromWeb $address; 
    my $rai = XML::RAI->parse_string($content); 
      #this line "causes" the error 
} 


readFromRSS("http://aktualne.centrum.cz/export/rss-hp.phtml"); 
    #I am testing it on this particular RSS 

błąd jest:

Cannot decode string with wide characters at /usr/lib/perl5/5.8.8/i686-linux/Encode.pm line 166. 

nie mam pojęcia, czy to moja wina lub wina XML :: RAI. Nie widzę gdzie te szerokie znaki mogą być, jeśli $ treść jest już odkodowana z utf8 ...

edytuj: z jakiegoś powodu wciąż nie rozumiem, usunięcie części "dekodowania" faktycznie rozwiązało problem.

Odpowiedz

9

Problem polega na podwójnym dekodowaniu. XML::RAI::parse_string() widocznie oczekuje dokumentu zakodowanego w UTF-8 i sam dekoduje. Jeśli przechodzą w ciąg, który jest już dekodowane, dekoduje go po raz drugi nie powiedzie, przedmiotu:

#!/usr/bin/perl 
use strict; 
use warnings; 

use Encode qw(decode); 
use LWP::Simple qw(get); 

my $xml = get("http://aktualne.centrum.cz/export/rss-hp.phtml"); 

$xml = decode('UTF-8', $xml); 
$xml = decode('UTF-8', $xml); # dies: Cannot decode string with wide characters ... 

Więc po prostu pomiń ten krok decode() i wszystko będzie w porządku.