使用 NLP 查询结构化数据是否有意义?

Does it make sense to interrogate structured data using NLP?

我知道这个问题可能不适合做SO,但是请让这个问题在这里停留一段时间。上次我的问题被转移到交叉验证时,它冻结了;没有更多的观点或反馈。


我遇到了一个对我来说意义不大的问题。如何通过 NLP 询问 IFC models?将 IFC 模型视为语义丰富的结构化数据。 IFC 定义了一个基于 EXPRESS 的实体关系模型,该模型由组织成基于对象的继承层次结构的实体组成。实体的示例包括建筑元素、几何图形和基本构造。

NLP 如何用于此类数据?我根本不认为 N​​LP 相关。

总的来说,我建议使用 NLP 技术 "interrogate" 已经(非常正式)结构化的数据,如 EXPRESS,最好的情况是矫枉过正,最坏的情况是时间/维护漏洞。一般来说,当你已经有了这样一个明确的编码时,NLP 的优势(人类语言歧义消解、共指消解、文本摘要、文本蕴涵等)是完全不必要的。如果有的话,您可以想象将此模式直接转换为 Prolog 应用程序以进行直接逻辑查询等(这与 NLP 的方向完全不同)。

我进行了一些搜索,试图找到您可能提到的参考资料。我找到的唯一项目是 Extending Building Information Models Semiautomatically Using Semantic Natural Language Processing Techniques:

... the authors propose a new method for extending the IFC schema to incorporate CC-related information, in an objective and semiautomated manner. The method utilizes semantic natural language processing techniques and machine learning techniques to extract concepts from documents that are related to CC [compliance checking] (e.g., building codes) and match the extracted concepts to concepts in the IFC class hierarchy.

因此,至少在这个例子中,作者不是 "interrogating" 具有 NLP 的 IFC 模式,而是使用它来使用从人类可读文本中提取的附加信息来扩充现有模式。这更有意义。如果您想 post 包含 "NLP interrogation" 短语的实际 URL 或参考,我应该能够更具体地发表评论。

编辑:

你引用的project grant abstract并没有包含很多细节,但是他们有这样一句话:

... The information embedded in the parametric 3D model is intended for facility or workplace management using appropriate software. However, this information also has the potential, when combined with IoT sensors and cognitive computing, to be utilised by healthcare professionals in Ambient Assisted Living (AAL) environments. This project will examine how as-constructed BIM models of healthcare facilities can be interrogated via natural language processing to support AAL. ...

我只能推测可能出于此目的使用 NLP 框架的以下原因:

虽然 BIM 模型包括 Industry Foundation 类 (IFC) 和 aecXML,但还有许多其他格式,其中许多是专有的。有些是 CAD 集成的,有些是独立的。与其支付许多专有许可(其中一些企业产品相当昂贵),and/or 花时间为各种不同的文件格式规范开发适当的结构化查询行为(在专有情况下可能不公开) ,作者选择了一种更自动化、更通用的解决方案来提取他们正在寻找的内容(我假设在几乎所有情况下都必须是文本或文本标签)。 这几乎类似于搜索引擎 "scraping" 网站并寻找关键词或短语以及它们的同义词等。 好处是它们不必明确编码与所有不同的可能的 BIM 文件格式进行比较以获得良好的覆盖范围,也不会支付大笔资金。缺点是它们带来了 NLP 带来的新问题和注意事项,包括培训、验证、监督等。而且 NLP 永远不会具有您可以从针对已知模式的真正结构化查询中获得的相同级别的准确性。