是否有一种算法可以计算 NLP 中单词抽象程度的数值等级?

Is there an algorithm to calculate a numerical rating of the degree of abstractness of a word in NLP?

有没有一种算法可以自动计算出一个词的抽象程度的数值等级。例如,算法将 purvey 评分为 1,将甜甜圈评分为 0,将 immodestly 评分为 0.5 ..(这些是示例值)

意义词中的抽象词,指的是与直接感知相距甚远的思想和概念,如经济学、计算和有争议的。 Other side 具体词是指我们可以直接用感官感知的事物、事件和属性,例如树、步行和红色。

据我所知,没有 abstractness 的定义,也没有任何算法可以计算它。

但是,有几个方向我会用作代理

  1. 频率 - 抽象概念在普通演讲中可能很少见,因此简单的 idf 应该有助于识别罕见词。

  2. 词源 - 英语中的常用词,通常源自日耳曼语,而更多的技术词通常是从法语/拉丁语借来的。

  3. 监督学习 - 如果您有维基百科文章,您会找到 abstract,那么常见的短语或单词可能也会描述类似的抽象概念。训练分类器可以是一种得分方式。

关于什么是抽象的,什么是具体的,没有基本事实,尤其是当你试图量化它时。 我建议将这些代理聚合到您认为对您的需求有用的指标。​​