Które z dostępnych źródeł i frameworków dla wolnego/otwartego źródła danych znasz i używasz dla danych tekstowych?Silniki i struktury do eksploracji danych?
Dziękuję za radę!
Które z dostępnych źródeł i frameworków dla wolnego/otwartego źródła danych znasz i używasz dla danych tekstowych?Silniki i struktury do eksploracji danych?
Dziękuję za radę!
Nie bardzo wiem, czego szukasz. Być może coś w stylu Lucene?
Jeśli chodzi o przetwarzanie tekstu (zamiast eksploracji danych numerycznych i klastrowania), to zestaw narzędzi NLTK jest wart obejrzenia. Ma to na celu nauczenie technik przetwarzania języka naturalnego w Pythonie. Jest więc idealny do majsterkowania, a jeśli chcesz korzystać z Pythona, z pewnością znajdziesz wiele klas komponentów i implementacji.
dziękuję! jeśli jeden z moich projektów będzie na pythonie, sprawdzę ten zestaw narzędzi;) – Edward83
RapidMiner jest darmowy i open source i działa na systemie Windows, Mac, Linux i jest ładnym graficznym programem opartym na przepływie pracy. Obsługuje cały kod Weka i integruje się z R.
@el dziękuję;) Sprawdzę) – Edward83
Apache Mahout oferuje szereg popularnych algorytmów, które można również zastosować do danych tekstowych i jest również dość skalowalny! Apache UIMA nie oferuje algorytmów eksploracji danych, ale jest strukturą szeroko stosowaną w przetwarzaniu języka naturalnego.
RapidMiner jest moim preferowanym rozwiązaniem mining: http://www.RapidMiner.com/
Oto przegląd najpopularniejszych narzędzi eksploracji danych między danych ekspertów górniczych: http://www.kdnuggets.com/2011/05/tools-used-analytics-data-mining.html
KDnuggets Sonda 2011: RapidMiner jest najpowszechniej stosowanym dane rozwiązanie wydobywcze wśród ekspertów eksploracji danych na całym świecie.
Weka i Rapidminer nie są tak silne w klastrach. Przeważnie wykonują klasyfikację i podobne przewidywania, ale niewiele klastrów. Spójrz na ELKI, który jest podobny do WEKA jako projektu uniwersyteckiego, ale ma masę metod wykrywania skupień i odstających.
Jestem autorem oprogramowania Java o otwartym kodzie źródłowym do częstego wyszukiwania wzorów. Oferuje algorytmy wyszukiwania sekwencyjnych wzorców, reguł asocjacji, częstych zestawów przedmiotów itp.
Chociaż nie jest specjalnie zaprojektowany do eksploracji tekstu, niektóre z algorytmów mogą być stosowane do generowania częstych wzorów w tekście. Na przykład, jeśli chcesz znaleźć sekwencje słów, które często pojawiają się razem w kilku zdaniach, możesz zastosować algorytm sekwencyjnego wzorcowania. Ale aby to zrobić, musielibyśmy przeprowadzić wstępne przetwarzanie przed zastosowaniem mojego oprogramowania, aby plik tekstowy był w odpowiednim formacie.
Można sprawdzić oprogramowanie tutaj: http://www.philippe-fournier-viger.com/spmf/
Apache Kornak jest biblioteką OpenSource Machile Learning, który może być stosowany z lub bez MapReduce (Apache Hadoop).
Zapewnia realizację algorytmów folloeing w Javie:
można przeczytać więcej: http://mahout.apache.org/
http://girlincomputerscience.blogspot.com.br/2010/11/apache-mahout.html
dziękuję za poradę :) – Edward83
Czy rzeczywiście szukasz silnika do eksploracji tekstu? Silniki wyszukiwania danych zwykle działają na metadanych, a nie na samym tekście. – ianmayo