2011-01-29 5 views
8

Czy istnieją już sposoby wykorzystania zrzutów danych Freebase do utworzenia bazy danych podobnej do oferty Freebase, ale na własnym serwerze? Prawie freebase, ale lokalnie, a nie przez API?Użyj danych freebase na serwerze lokalnym?

Sądzę, że byłoby możliwe stworzenie, ale czy istnieją już istniejące rozwiązania? Lub dowolne alternatywne rozwiązania dla podobnych danych bez użycia API? Nie znalazłem tego również dla dbpedia: |

+0

udało Ci się to zrobić? z jakiego rozwiązania korzystałeś? jakich zasobów komputerowych (pamięci RAM, dysku, procesora ...) potrzebujesz? –

+0

Nie, nie zrobiłem: < – freakshow

Odpowiedz

1

Jeśli możesz wyeksportować bazę danych, aby powiedzieć, oddzielone tabulatorami lub oddzielone przecinkami wartości w TXT lub pliki bazy danych, takie jak MDB, XLS lub jakikolwiek inny wysoce przenośny format danych, nie miałbyś problemu z budowaniem własnej bazy danych MySQL twój komputer używa tych danych. Najważniejsze jest to, aby eksportować dane, z których można odbudować własną bazę danych.

2

Importowanie danych do wybranego potrójnego sklepu nie byłoby trudne - ale będziesz miał duże trudności z uzyskaniem odpowiedzi w rozsądnym czasie, chyba że robisz coś banalnego.

Ktoś zaimportował cały zestaw danych do MySQL kilka lat temu - załadowanie trwało 2 tygodnie, a nawet proste zapytania, takie jak "liczba rzeczy wpisanych jako osoba" trwały> 1 minutę, aby dać odpowiedź. To było na dużym sprzęcie, a zbiór danych jest teraz znacznie większy niż wtedy.

+0

Muszę zrozumieć, w jaki sposób dane Freebase są ułożone, a następnie zoptymalizować je przed próbą załadowania do MySQL. Jeden sposób jest opisany tutaj - http://stackoverflow.com/a/12428232/756579 (ładuje wszystkie Freebase, a czas odpowiedzi to ułamki sekundy). –

3

jestem twórcą :BaseKB pierwszy użyteczny konwersja Freebase do RDF.

Istnieją kluczowe problemy z integralnością w quadzie Freebase, które utrudniają uzyskanie w pełni poprawnych wyników z quad dump. : BaseKB rekonstruuje kluczową strukturę Freebase, dzięki czemu zachowuje unikalne założenie nazwy. Jest to ważne, ponieważ zdolność do pisania prostych zapytań SPARQL, które działają jak zapytania SQL, zależy od tego.

Teraz: BaseKB istnieje w dwóch wersjach. Jest darmowa edycja, która składa się z 120 milionów faktów na temat 4 milionów tematów (tych z Wikipedii) i jest wersja "Pro", która zawiera wszystko.

Jeśli chodzi o problemy z wydajnością poruszane przez Phillip Kendall, mogę powiedzieć, że to głównie kwestia posiadania wystarczającej ilości pamięci RAM. Z 24 GB pamięci RAM mogę załadować bezpłatną wersję do potrójnego sklepu w ciągu godziny. Niektóre zapytania trwają dłużej niż mi się podoba, ale ogólna skuteczność zapytań jest dobra.

Każdy, kto chce korzystać z wersji "Pro", będzie potrzebował niezwykle mocnego sprzętu i poświęci sporo wysiłku, aby jego toolchain działał.Pracuję teraz z partnerami, aby dostarczyć "Pro" użytkownikom w zadowalający sposób.

+0

Paul, czy możesz rozwinąć sprzęt potrzebny do uruchomienia Pro? Czy możesz rozwinąć partnerów? to jest BaseKB wykraczający poza dane Freebase/DBpedia? dzięki –