Silniki i struktury do eksploracji danych?

Które z dostępnych źródeł i frameworków dla wolnego/otwartego źródła danych znasz i używasz dla danych tekstowych?Silniki i struktury do eksploracji danych?

Dziękuję za radę!

Źródło

2010-11-18 Edward83

Czy rzeczywiście szukasz silnika do eksploracji tekstu? Silniki wyszukiwania danych zwykle działają na metadanych, a nie na samym tekście. – ianmayo

Nie wiem o silnikach ani frameworkach, ale użyłem tego narzędzia o nazwie Weka, ma ono wiele zaimplementowanych algorytmów.

Źródło

2010-11-18 00:57:24

dziękuję! jak znalazłem, autorzy napisali ładną książkę http://www.cs.waikato.ac.nz/ml/weka/book.html – Edward83

Nie bardzo wiem, czego szukasz. Być może coś w stylu Lucene?

Źródło

2010-11-18 01:13:06

Jeśli chodzi o przetwarzanie tekstu (zamiast eksploracji danych numerycznych i klastrowania), to zestaw narzędzi NLTK jest wart obejrzenia. Ma to na celu nauczenie technik przetwarzania języka naturalnego w Pythonie. Jest więc idealny do majsterkowania, a jeśli chcesz korzystać z Pythona, z pewnością znajdziesz wiele klas komponentów i implementacji.

Źródło

2010-11-18 01:14:09 winwaed

dziękuję! jeśli jeden z moich projektów będzie na pythonie, sprawdzę ten zestaw narzędzi;) – Edward83

RapidMiner jest darmowy i open source i działa na systemie Windows, Mac, Linux i jest ładnym graficznym programem opartym na przepływie pracy. Obsługuje cały kod Weka i integruje się z R.

Źródło

2010-11-30 07:26:08

@el dziękuję;) Sprawdzę) – Edward83

Apache Mahout oferuje szereg popularnych algorytmów, które można również zastosować do danych tekstowych i jest również dość skalowalny! Apache UIMA nie oferuje algorytmów eksploracji danych, ale jest strukturą szeroko stosowaną w przetwarzaniu języka naturalnego.

Źródło

2011-04-25 10:15:39

RapidMiner jest moim preferowanym rozwiązaniem mining: http://www.RapidMiner.com/

Oto przegląd najpopularniejszych narzędzi eksploracji danych między danych ekspertów górniczych: http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html

KDnuggets Sonda 2011: RapidMiner jest najpowszechniej stosowanym dane rozwiązanie wydobywcze wśród ekspertów eksploracji danych na całym świecie.

Źródło

2011-05-31 08:53:05

Weka i Rapidminer nie są tak silne w klastrach. Przeważnie wykonują klasyfikację i podobne przewidywania, ale niewiele klastrów. Spójrz na ELKI, który jest podobny do WEKA jako projektu uniwersyteckiego, ale ma masę metod wykrywania skupień i odstających.

Źródło

2011-12-29 15:25:58

Jestem autorem oprogramowania Java o otwartym kodzie źródłowym do częstego wyszukiwania wzorów. Oferuje algorytmy wyszukiwania sekwencyjnych wzorców, reguł asocjacji, częstych zestawów przedmiotów itp.

Chociaż nie jest specjalnie zaprojektowany do eksploracji tekstu, niektóre z algorytmów mogą być stosowane do generowania częstych wzorów w tekście. Na przykład, jeśli chcesz znaleźć sekwencje słów, które często pojawiają się razem w kilku zdaniach, możesz zastosować algorytm sekwencyjnego wzorcowania. Ale aby to zrobić, musielibyśmy przeprowadzić wstępne przetwarzanie przed zastosowaniem mojego oprogramowania, aby plik tekstowy był w odpowiednim formacie.

Można sprawdzić oprogramowanie tutaj: http://www.philippe-fournier-viger.com/spmf/

Źródło

2012-03-18 16:36:20 Phil

Apache Kornak jest biblioteką OpenSource Machile Learning, który może być stosowany z lub bez MapReduce (Apache Hadoop).

Zapewnia realizację algorytmów folloeing w Javie: