代币化产品模型

Tokenizing Product Models

希望匹配一些产品信息,返回结构化数据并重写或查找值。

示例输入:

"I have a 1999 Cat (D-6) and an Ingersoll Rand Model Z for sale"

我想从中创建类似

的内容
[ { year:1999, brand:"CATERPILLAR", model:"D6" },
{ year:null, brand:"INGERSOLL-RAND", model:"MODEL Z" } ]

根据已知数据:

/\d{4}/, YEAR
...
/cat(erpill[ae]r)/, BRAND, "CATERPILLAR"
...
/d[\-\s]6/, MODEL, "D6"

这可以单独使用 Regex 来完成吗?还是我需要 Lexer?

我可以毫无问题地理解正则表达式,但对重写部分以及将事物组合在一起感到困惑

我想你想提取汽车交易细节。

这里你需要NLP,你可以使用Stanford Core NLP设计你自己的NLP正则表达式或者你可以训练一个数据集。

但是 Stanford NER 是开发的模型,它将为您提供日期和时间、组织以及位置、人员、百分比和价格等实体。

其他相关工具:apache openNLP , aylien