2010-11-18 11 views
5

Które z dostępnych źródeł i frameworków dla wolnego/otwartego źródła danych znasz i używasz dla danych tekstowych?Silniki i struktury do eksploracji danych?

Dziękuję za radę!

+0

Czy rzeczywiście szukasz silnika do eksploracji tekstu? Silniki wyszukiwania danych zwykle działają na metadanych, a nie na samym tekście. – ianmayo

Odpowiedz

1

Nie wiem o silnikach ani frameworkach, ale użyłem tego narzędzia o nazwie Weka, ma ono wiele zaimplementowanych algorytmów.

+0

dziękuję! jak znalazłem, autorzy napisali ładną książkę http://www.cs.waikato.ac.nz/ml/weka/book.html – Edward83

3

Nie bardzo wiem, czego szukasz. Być może coś w stylu Lucene?

1

Jeśli chodzi o przetwarzanie tekstu (zamiast eksploracji danych numerycznych i klastrowania), to zestaw narzędzi NLTK jest wart obejrzenia. Ma to na celu nauczenie technik przetwarzania języka naturalnego w Pythonie. Jest więc idealny do majsterkowania, a jeśli chcesz korzystać z Pythona, z pewnością znajdziesz wiele klas komponentów i implementacji.

+0

dziękuję! jeśli jeden z moich projektów będzie na pythonie, sprawdzę ten zestaw narzędzi;) – Edward83

2

RapidMiner jest darmowy i open source i działa na systemie Windows, Mac, Linux i jest ładnym graficznym programem opartym na przepływie pracy. Obsługuje cały kod Weka i integruje się z R.

+0

@el dziękuję;) Sprawdzę) – Edward83

0

Apache Mahout oferuje szereg popularnych algorytmów, które można również zastosować do danych tekstowych i jest również dość skalowalny! Apache UIMA nie oferuje algorytmów eksploracji danych, ale jest strukturą szeroko stosowaną w przetwarzaniu języka naturalnego.

2

Weka i Rapidminer nie są tak silne w klastrach. Przeważnie wykonują klasyfikację i podobne przewidywania, ale niewiele klastrów. Spójrz na ELKI, który jest podobny do WEKA jako projektu uniwersyteckiego, ale ma masę metod wykrywania skupień i odstających.

1

Jestem autorem oprogramowania Java o otwartym kodzie źródłowym do częstego wyszukiwania wzorów. Oferuje algorytmy wyszukiwania sekwencyjnych wzorców, reguł asocjacji, częstych zestawów przedmiotów itp.

Chociaż nie jest specjalnie zaprojektowany do eksploracji tekstu, niektóre z algorytmów mogą być stosowane do generowania częstych wzorów w tekście. Na przykład, jeśli chcesz znaleźć sekwencje słów, które często pojawiają się razem w kilku zdaniach, możesz zastosować algorytm sekwencyjnego wzorcowania. Ale aby to zrobić, musielibyśmy przeprowadzić wstępne przetwarzanie przed zastosowaniem mojego oprogramowania, aby plik tekstowy był w odpowiednim formacie.

Można sprawdzić oprogramowanie tutaj: http://www.philippe-fournier-viger.com/spmf/

3

Apache Kornak jest biblioteką OpenSource Machile Learning, który może być stosowany z lub bez MapReduce (Apache Hadoop).

Zapewnia realizację algorytmów folloeing w Javie:

  • Collaborative Filtering
  • użytkownika i pozycji w oparciu rekomendujących
  • K-Znaczy, Fuzzy K-średnich klastrów
  • Mean Przesunięcie klastrów
  • Dirichlet process clustering
  • Alokacja Dicichleta
  • wartość pojedyncza rozkładu
  • Parallel Częste Wzór wydobycie
  • uzupełniające naiwny klasyfikator bayesowski
  • drzewo decyzyjne
  • Losowy las klasyfikator oparty

można przeczytać więcej: http://mahout.apache.org/

http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html

http://www.ibm.com/developerworks/java/library/j-mahout/

+0

dziękuję za poradę :) – Edward83