数据科学中同音异义词和同音异义词的区别及实例

Difference between homonyms and synonyms in data science with examples

请举例说明数据科学中同音异义词和同音异义词的区别。

概念同义词:

当您确定两个概念是同义词(例如,sofa 和 couch)时,您可以使用 class 表达式 owl:equivalentClass。这里的蕴涵是任何曾经是 class 沙发成员的实例现在也是 class 沙发成员,反之亦然。这种方法的好处之一是,此等价的 "context" 自动限定在您进行等价声明的 ontology 范围内。如果您在家具 ontology 和室内装饰 ontology 之间有一个非常小的映射 ontology,您可以在映射中说这两者是等价的。在另一种情况下,如果您需要保留沙发和沙发之间的(细微)差异,您只需不包括声明它们等同的映射 ontology 即可。

概念同音词:

正如 Led Zeppelin 所说,"and you know sometimes words have two meanings…" 当 "word" 有两种含义时会发生什么,即我们拥有 WordNet 所称的 "word senses." 在特定语言中,一组字符可能代表不止一个概念。一个例子是英语单词 "mole,",WordNet 有 6 个词义。语义网方法是给每个人自己的命名空间;例如,我可能将反间谍鼹鼠称为 cia:mole,将穴居啮齿动物称为 mammal:mole。 (这些是完整命名空间名称的缩写 qname。)这样做的好处是,如果 CIA 需要引用啮齿动物,他们可以明确引用 mammal:mole.

Credit

同音异义词- 是发音相同但意思不同的词。 2. 同义词-意思相同或几乎相同的词。

同音字

机器学习算法现在是伦理争论的主题。偏见,通俗地说,是在事实不为人知之前就形成的一种先入为主的观点。它适用于估计程序提供估计或预测的倾向,这些估计或预测在机器学习和数据挖掘中平均偏离目标。

可以通过多种方式衡量政策的力度,包括信心。 “决策树”是显示如何做出决策以及可能产生的后果的图表。重新缩放统计数据以匹配模型中其他变量的缩放比例以对其进行归一化。

置信度是统计学家用于确定样本可靠性的指标(基于 N 名患者的样本,我们有 95% 的置信度认为该组的平均血糖介于 X 和 Y 之间)。决策树算法是将数据划分成多个部分的方法,这些部分在结果度量方面变得越来越同质。

图表是数据的图形表示,统计学家称之为绘图和图表。根据计算机程序员的说法,图似乎是一种信息结构,其中包含项目之间的关系和链接。安排关系数据库及其列以使 table 关系一致的行为称为规范化。

同义词

统计学家使用术语记录、实例、样本或示例来描述他们的数据。在计算机科学和机器学习中,这可以称为属性、输入变量或特征。还使用了术语“估计”,尽管它的使用通常仅限于数字结果。

统计学家称这种非时间序列的数据格式为记录,或记录。在统计学中,估计更多地指使用样本统计量来衡量某事。预测建模涉及将低级预测变量的聚合开发为信息量更大的“特征”。

电子表格格式,其中每一列仍然是一个变量,因此每一行都是一条记录,这可能是最常见的非时间序列数据类型。机器学习和人工智能中的建模通常从一些非常低级的预测数据开始。