机器学习将公司名称分类到他们的行业

Machine learning to classify company names to their industries

我想做的是让用户输入一个公司名称,例如微软,并能够预测它是在计算机软件行业。我有大约 150 000 个名字和 60 多个行业。有些名字不是英文公司名。

我曾尝试使用仅基于公司名称的 Gensim 训练 Word2Vec 模型,并在将其输入 SKlearn 的逻辑回归之前对词向量进行平均,但结果很糟糕。我的问题是:

  1. 有人试过这种任务吗?谷歌搜索短文本分类显示了对短句而不是纯名称进行分类的结果。如果有人以前尝试过这个,介意分享一些关于这个任务的关键词或研究论文吗?

  2. 如果我对每个公司都有一个简短的描述而不是只使用他们的名字会更好吗?它对我的 Word2Vec 模型有多大帮助而不是仅使用公司名称?

不确定你想要什么。

如果重点是只使用公司名称,可以将名称分成 syllables/phonemes,然后根据该数据进行训练。

如果重点是使用 Word2Vec,我建议为每个公司提取维基百科页面(比 'about me' 更容易自动化)。

对于您的问题,这只不过是公司与行业的关系,因此,您必须使用公司描述数据来训练您的 word2vec model,因为 word2vec 致力于计算与给定 word.So 如果你根据公司名称进行培训,这会给你带来不好的 results.If 你根据描述进行培训,那么你可以得到与特定 industry.By 相关的相似词所属行业。

如果您想根据公司名称进行训练,NER(命名实体标记器)将是 useful.But 这将不准确。