多重本体重用(部分来自更具体的领域)

Multiple Ontologies Reuse (which partially sourced from a more specific domain)

我需要在计算生物化学和分子动力学方面发展 ontology。为此,我收集了将要使用的术语,并尝试通过在 ontology 搜索服务上搜索术语来重用本体,例如 EBI-OLS. Some terms are very relevant to import/reuse, however, the ontology itself is intended for a more specific domain, such as National Cancer Institute Thesaurus (which has 171,081 classes). Other than that, there are other 10 source ontologies that I could potentially reuse. Some of them are also huge, such as EDAM ontology.

  1. 是否可以重复使用 ontology 似乎打算用于更多 特定领域,例如癌症?我们将使用 ontology 更多 生命科学中的通用用途,而不仅仅是癌症相关领域。

  2. 对于这 10 种本体中的哪一种,是否有任何一般经验法则 哪些适合重复使用? (例如,论文描述 ontology 至少被 n 篇论文引用,或者 应与 Open Biological and Biomedical Ontology 兼容 (OBO)Foundry principles, 不然应该有知名度做后盾 机构并仍在维护中)。

  3. 如何确定甜蜜点 有多少 ontology 个来源可以作为依据?虽然我们可以重用 尽可能多的可用术语(来自许多 ontology 来源, 特别是在生命科学领域),有人担心它会使 由此产生的知识图表示要复杂得多。

感谢您的回答。

您问题的答案:

  1. 我会说是的,假设您打算使用的术语确实适合您的用例。也就是说,如果有一个词你很想用,但是说它的定义或者同义词不符合你的需求,那么我可能会考虑不用这个词。

  2. 是的,有。我真的推荐阅读论文Ten Simple Rules for Selecting a Bio-ontology and the OBO Tutorial

  3. 尽量保持您想要使用的本体数量尽可能少(这是与您的用例需求保持一致的最小本体集)。这样做的原因是您将希望与您使用的本体的设计者合作,以针对您的用例扩展和修改这些本体。您使用的本体越多,您可能需要与更大的社区进行交流以影响您的用例的变化。这可能会增加开发时间。但是,使用与您的用例不太一致的 ontology 也会增加沟通和时间线。因此,保持本体数量尽可能少的原因是明智的。

至于您对将大型本体导入 ontology 的担忧,处理方法是使用 ROBOT 仅提取您感兴趣的术语,然后导入提取的 ontology 到你自己的 ontology.

总的来说,我强烈建议您联系 OBO Foundry。他们多年来一直在开发与生命科学相关的本体论。与他们合作,您可能会避免人们 运行 在开始设计本体时遇到的许多典型问题。

我还从我的角度写了一些关于选择生物本体的一般指导方针 here