Najpierw zapytałem this question o wykonanie tego zadania z pakietem httr
, ale nie sądzę, że jest to możliwe przy użyciu httr
. więc ponownie napisałem mój kod, aby użyć zamiast niego RCurl
- ale nadal potknę się na czymś prawdopodobnie związanym z writefunction
.. ale naprawdę nie rozumiem dlaczego.jak pobrać duży plik binarny za pomocą RCurl * po * uwierzytelnieniu serwera *
powinieneś być w stanie odtworzyć moją pracę za pomocą 32-bitowej wersji R, więc trafisz w limity pamięci, jeśli czytasz cokolwiek do pamięci RAM. Potrzebuję rozwiązania, które pobiera bezpośrednio na dysk twardy.
na początek, ten kod do działa - spakowany plik jest odpowiednio zapisany na dysku.
library(RCurl)
filename <- tempfile()
f <- CFILE(filename, "wb")
url <- "http://www2.census.gov/acs2011_5yr/pums/csv_pus.zip"
curlPerform(url = url, writedata = [email protected])
close(f)
# 2.1 GB file successfully written to disk
Oto kod, który nie działa, ale zawiera kod RCurl
. jak stwierdzono w the previous question, odtworzenie tego dokładnie będzie wymagało utworzenia ekstraktu na ipums.
your.email <- "[email protected]"
your.password <- "password"
extract.path <- "https://usa.ipums.org/usa-action/downloads/extract_files/some_file.csv.gz"
library(RCurl)
values <-
list(
"login[email]" = your.email ,
"login[password]" = your.password ,
"login[is_for_login]" = 1
)
curl = getCurlHandle()
curlSetOpt(
cookiejar = 'cookies.txt',
followlocation = TRUE,
autoreferer = TRUE,
ssl.verifypeer = FALSE,
curl = curl
)
params <-
list(
"login[email]" = your.email ,
"login[password]" = your.password ,
"login[is_for_login]" = 1
)
html <- postForm("https://usa.ipums.org/usa-action/users/validate_login", .params = params, curl = curl)
dl <- getURL("https://usa.ipums.org/usa-action/extract_requests/download" , curl = curl)
i teraz, że jestem zalogowany, spróbuj te same polecenia jak wyżej, ale z obiektu curl
zachować cookie.
filename <- tempfile()
f <- CFILE(filename, mode = "wb")
ta linia breaks--
curlPerform(url = extract.path, writedata = [email protected], curl = curl)
close(f)
# the error is:
Error in curlPerform(url = extract.path, writedata = [email protected], curl = curl) :
embedded nul in string: [[binary jibberish here]]
odpowiedź na mój poprzedni post skierował mnie do this c-level writefunction odpowiedź, ale mam bladego pojęcia o tym, jak ponownie utworzyć ten program curl_writer C (w systemie Windows?) ..
dyn.load("curl_writer.so")
writer <- getNativeSymbolInfo("writer", PACKAGE="curl_writer")$address
curlPerform(URL=url, writefunction=writer)
..or dlaczego jest to nawet konieczne, zważywszy, że pięć linii kodu na początku tej pracy zapytania bez niczego szalonego jak getNativeSymbolInfo
. po prostu nie rozumiem, dlaczego przekazanie tego dodatkowego obiektu, który przechowuje uwierzytelnienie/pliki cookie i mówi mu, aby nie weryfikować SSL, spowodowałoby, że kod, który w przeciwnym razie działa, może się zepsuć?
Co się dzieje, jeśli edytować kod, który działa dodanie 'curl = getCurlHandle()' i 'curlPerform (url = URL, writedata = F @ ref = curl, curl)'? i czy możesz pobrać inną zawartość po rozpoczęciu sesji? na przykład, używając 'curlPerform' i' writedata', aby zapisać 'https: //usa.ipums.org/usa-action/extract_requests/download' –
O kodzie C, musisz skompilować go do biblioteki DLL, a następnie 'dyn.load (" curl_writer.dll ")' –
1) nie rozumiem jak twoja edycja getCurlHandle() różni się od mojego kodu? 2) tak, jestem w stanie pobrać inną zawartość po rozpoczęciu sesji. 'z <- getBinaryURL (extract.path, curl = curl)' działa, ale czyta wszystko do pamięci RAM, więc nie rozwiązuje mojego problemu. 3) czy można to zrobić w R na oknach? dzięki!! :) –