在 Rapidminer 的 excel 文件中找到一个词
Find a word in excel file in Rapidminer
我有一个读取文本文件的进程和一个运算符 Process Document from Data 具有 Tokenize 运算符的运算符。
它正常工作,但是当我将 Process Document 的来源从 Data 更改为 Read Excel 时,输出为空。我认为我有错误, Read Excel 运算符无法直接连接到 Process Document from Data 并且必须读取每一列Excel 文件,然后连接到 Process Document from Data.
任何人都可以帮助我如何从 处理来自数据的文档 连接 Excel 文件?
PS: 我的目标是阅读excel文件并显示在excel文件列中重复的单词超过3次。
示例文件是:
既然你没有包含你的过程或输入数据,我可以简单地建议一个完全没有文档的替代方案吗?
如果您的目标是在 Excel 文件的特定列中查找条目,您可以使用三个运算符执行此操作:读取 Excel, 聚合和过滤示例:
使用读取Excel提取列作为具有单个属性的示例集(例如words),聚合 words 属性与 count 函数并按 words[=33 分组=](这会为您提供所需的每个单词计数),最后使用 Filter Examples 仅保留计数为 3 或更多的单词。
示例过程(为您的特定设置重新运行导入配置向导):
<?xml version="1.0" encoding="UTF-8"?><process version="9.0.003">
<context>
<input/>
<output/>
<macros/>
</context>
<operator activated="true" class="process" compatibility="9.0.003" expanded="true" name="Process">
<process expanded="true">
<operator activated="true" class="read_excel" compatibility="9.0.003" expanded="true" height="68" name="Read Excel" width="90" x="45" y="34">
<parameter key="excel_file" value="D:\words.xlsx"/>
<parameter key="imported_cell_range" value="A1:A100"/>
<list key="annotations"/>
<parameter key="date_format" value="MMM d, yyyy h:mm:ss a z"/>
<list key="data_set_meta_data_information">
<parameter key="0" value="words.true.polynominal.attribute"/>
</list>
<parameter key="read_not_matching_values_as_missings" value="false"/>
</operator>
<operator activated="true" class="aggregate" compatibility="9.0.003" expanded="true" height="82" name="Aggregate" width="90" x="179" y="34">
<list key="aggregation_attributes">
<parameter key="words" value="count"/>
</list>
<parameter key="group_by_attributes" value="words"/>
</operator>
<operator activated="true" class="filter_examples" compatibility="9.0.003" expanded="true" height="103" name="Filter Examples" width="90" x="313" y="34">
<list key="filters_list">
<parameter key="filters_entry_key" value="count(words).ge.3"/>
</list>
</operator>
<connect from_op="Read Excel" from_port="output" to_op="Aggregate" to_port="example set input"/>
<connect from_op="Aggregate" from_port="example set output" to_op="Filter Examples" to_port="example set input"/>
<connect from_op="Filter Examples" from_port="example set output" to_port="result 1"/>
<portSpacing port="source_input 1" spacing="0"/>
<portSpacing port="sink_result 1" spacing="0"/>
<portSpacing port="sink_result 2" spacing="0"/>
<portSpacing port="sink_result 3" spacing="0"/>
</process>
</operator>
</process>
我有一个读取文本文件的进程和一个运算符 Process Document from Data 具有 Tokenize 运算符的运算符。
它正常工作,但是当我将 Process Document 的来源从 Data 更改为 Read Excel 时,输出为空。我认为我有错误, Read Excel 运算符无法直接连接到 Process Document from Data 并且必须读取每一列Excel 文件,然后连接到 Process Document from Data.
任何人都可以帮助我如何从 处理来自数据的文档 连接 Excel 文件?
PS: 我的目标是阅读excel文件并显示在excel文件列中重复的单词超过3次。
示例文件是:
既然你没有包含你的过程或输入数据,我可以简单地建议一个完全没有文档的替代方案吗?
如果您的目标是在 Excel 文件的特定列中查找条目,您可以使用三个运算符执行此操作:读取 Excel, 聚合和过滤示例:
使用读取Excel提取列作为具有单个属性的示例集(例如words),聚合 words 属性与 count 函数并按 words[=33 分组=](这会为您提供所需的每个单词计数),最后使用 Filter Examples 仅保留计数为 3 或更多的单词。
示例过程(为您的特定设置重新运行导入配置向导):
<?xml version="1.0" encoding="UTF-8"?><process version="9.0.003">
<context>
<input/>
<output/>
<macros/>
</context>
<operator activated="true" class="process" compatibility="9.0.003" expanded="true" name="Process">
<process expanded="true">
<operator activated="true" class="read_excel" compatibility="9.0.003" expanded="true" height="68" name="Read Excel" width="90" x="45" y="34">
<parameter key="excel_file" value="D:\words.xlsx"/>
<parameter key="imported_cell_range" value="A1:A100"/>
<list key="annotations"/>
<parameter key="date_format" value="MMM d, yyyy h:mm:ss a z"/>
<list key="data_set_meta_data_information">
<parameter key="0" value="words.true.polynominal.attribute"/>
</list>
<parameter key="read_not_matching_values_as_missings" value="false"/>
</operator>
<operator activated="true" class="aggregate" compatibility="9.0.003" expanded="true" height="82" name="Aggregate" width="90" x="179" y="34">
<list key="aggregation_attributes">
<parameter key="words" value="count"/>
</list>
<parameter key="group_by_attributes" value="words"/>
</operator>
<operator activated="true" class="filter_examples" compatibility="9.0.003" expanded="true" height="103" name="Filter Examples" width="90" x="313" y="34">
<list key="filters_list">
<parameter key="filters_entry_key" value="count(words).ge.3"/>
</list>
</operator>
<connect from_op="Read Excel" from_port="output" to_op="Aggregate" to_port="example set input"/>
<connect from_op="Aggregate" from_port="example set output" to_op="Filter Examples" to_port="example set input"/>
<connect from_op="Filter Examples" from_port="example set output" to_port="result 1"/>
<portSpacing port="source_input 1" spacing="0"/>
<portSpacing port="sink_result 1" spacing="0"/>
<portSpacing port="sink_result 2" spacing="0"/>
<portSpacing port="sink_result 3" spacing="0"/>
</process>
</operator>
</process>