如何使用神经网络找到子串中的主要部分?

How to find the main part in substring using neural networks?

我很困惑。是否有可能在句子中找到主要单词或子字符串(借助训练集)。我正在解析职位空缺并尝试构建一个文本维护应用程序,这可能会质疑文本中提到的技能。是的,也许这是使用技能词典进行某种全局文本搜索的任务,但我真的很好奇,NN 能帮忙吗? 如您所料,我是 ML 的新手。

简答:没有 NN 无能为力。

长答案:如果您真的非常希望他们有大量的时间和技能,也许他们可以。 问题是神经网络用于处理数字而不是单词。 大多数类型的神经网络都依赖于确定两个值是否彼此接近的能力。对于语言上下文中的字符串,这仍然不容易。

因此,如果您不想在接下来的几年里花时间研究神经网络,我会寻找不同的方法 ;)

Word2Vec 是神经网络的一个基本应用程序,可以帮助创建单词的数字表示,您可以使用它来构建对句子的智能解释。

更有趣的是,使用 LSTM 可以处理上下文,并识别本文中句子中的关键词:http://www.clsp.jhu.edu/~guoguo/papers/icassp2015_myhotword.pdf . This is a paper on identifying key words in sentences to allow for faster, more useful applications of voice recognition software. Here is the github: https://github.com/MajerMartin/lstm-dtw-keyword-spotting。在这个 post 中解释太多了,但这应该让你忙起来,让你开始训练神经网络来识别关键字。