使用哪种数据挖掘工具?

Which datamining tool to use?

有人可以向我解释最著名的数据挖掘开源工具的主要优缺点吗?

我到处都读到 RapidMinerWekaOrange KNIME 是最好的。 look at this blog post

有人可以在一个小的项目符号列表中进行快速技术比较。

我的需求如下:

谢谢!

首先我想说的是你的列表中的每一个都有优点和缺点但是我建议从你的列表中根据我的个人经验,在你自己的列表中实施起来非常简单 java使用 weka jar 文件的应用程序,并有自己的数据挖掘工具。

Rapid miner 似乎是一种提供端到端解决方案的商业解决方案,但是最显着的外部实施 rapid miner 解决方案的示例通常在 python 和 r 脚本中而不是 java.

Orange 提供的工具似乎主要针对那些可能不太需要自定义实现到他们自己的软件中但更容易与用户互动的人,它用 python 编写并且源代码可用,用户支持插件。

Knime 是另一个为数据挖掘和分析提供端到端解决方案的商业平台,它提供了所有需要的工具,这个平台在互联网上有各种好评,但我还没有充分使用它来向您或专业人士或任何人提供建议它的缺点。

knime vs weka

请看这里

Best data mining tools

正如我所说,作为软件开发人员,weka 是我个人的最爱,但我相信其他人对于选择其中一个而不是另一个有不同的理由和意见。希望您能找到适合您的解决方案。

此外,根据您的要求,weka 支持以下内容:

Naivebayes

SVM

C4.5

KNN

我尝试过使用 15K 记录数据库的 Orange 和 Weka,发现 Weka 的内存管理存在问题,它需要超过 16Gb 的 RAM,而 Orange 可以在不使用那么多的情况下管理数据库。一旦 Weka 达到最大内存量,它就会崩溃,即使您在 ini 文件中设置更多内存告诉 Java 虚拟机使用更多。

我最近evaluated many open source projects,在决策树机器学习算法方面对它们进行了比较和对比。 Weka 和 KNIME 被包括在该评估中。我介绍了算法、用户体验、准确性和模型检查方面的差异。您可以根据自己最看重的功能选择其中之一。

我对 RapidMiner 有过积极的体验:

  • 一大套机器学习算法
  • 机器学习工具 - 特征选择、参数网格搜索、数据分区、交叉验证、指标
  • 大量数据操作算法 - 输入、转换、输出
  • 适用于许多领域 - 金融、网络抓取和抓取、nlp、图像(非常基础)
  • 可扩展 - 一种可以发送和接收数据的其他技术:R, python, groovy, shell
  • 可移植 - 可以 运行 作为 java 过程
  • 开发人员友好(在某种程度上,可以使用一些改进)- 日志记录、调试、断点、宏

我希望在用户体验方面看到类似 RapidMiner 的东西,但底层引擎基于 python 技术:pandas、scikit-learn、spacy 等。最好是,一些东西这将允许在 GUI 和代码之间来回移动。