Potrzebuję przenieść duże pliki (co najmniej 14 MB) z instancji Cosmos laboratorium FIWARE do mojego zaplecza.Jak mogę odczytać i przesłać fragmenty pliku za pomocą Hadoop WebHDFS?
kiedyś sprężyna RestTemplate jako interfejs klienta dla hadoop WebHDFS odpoczynek czynnych opisano here ale prowadzony w wyjątek IO:
Exception in thread "main" org.springframework.web.client.ResourceAccessException: I/O error on GET request for "http://cosmos.lab.fiware.org:14000/webhdfs/v1/user/<user.name>/<path>?op=open&user.name=<user.name>":Truncated chunk (expected size: 14744230; actual size: 11285103); nested exception is org.apache.http.TruncatedChunkException: Truncated chunk (expected size: 14744230; actual size: 11285103)
at org.springframework.web.client.RestTemplate.doExecute(RestTemplate.java:580)
at org.springframework.web.client.RestTemplate.execute(RestTemplate.java:545)
at org.springframework.web.client.RestTemplate.exchange(RestTemplate.java:466)
to rzeczywisty kod, który generuje wyjątek:
RestTemplate restTemplate = new RestTemplate();
restTemplate.setRequestFactory(new HttpComponentsClientHttpRequestFactory());
restTemplate.getMessageConverters().add(new ByteArrayHttpMessageConverter());
HttpEntity<?> entity = new HttpEntity<>(headers);
UriComponentsBuilder builder =
UriComponentsBuilder.fromHttpUrl(hdfs_path)
.queryParam("op", "OPEN")
.queryParam("user.name", user_name);
ResponseEntity<byte[]> response =
restTemplate
.exchange(builder.build().encode().toUri(), HttpMethod.GET, entity, byte[].class);
FileOutputStream output = new FileOutputStream(new File(local_path));
IOUtils.write(response.getBody(), output);
output.close();
Myślę, że jest to spowodowane przekroczeniem limitu czasu transferu w instancji Cosmos, więc próbowałem uzyskać wysłać curl
na ścieżce, podając parametry offset, buffer and length
, ale wydaje się, że są ignorowane: Mam cały plik.
Z góry dziękuję.
Może patrząc na py webhdfs dostaniesz wskazówki -> https://github.com/pywebhdfs/pywebhdfs/blob/master/pywebhdfs/webhdfs.py#L48 – ravwojdyla
Dzięki, ale to nie pomaga. Problem polega na tym, że opcjonalny parametr długości operacji OPEN (patrz "def read_file (self, path, ** kwargs)" w twoim linku) jest całkowicie ignorowany przez serwer –