PonyORM:在不知道哪些项目已经存在的情况下,向小马数据库添加新项目的最有效方法是什么?

PonyORM: What is the most efficient way to add new items to a pony database without knowing which items already exist?

如果这是一个明显的问题,请原谅我,但我对 pony 和数据库一般来说是新手,没有找到文档的正确部分来回答这个问题。

我正在尝试创建一个包含公司和这些公司设有办事处的地点的数据库。这是一个多对多的关系,因为每个公司都位于多个位置,并且每个位置都可以托管多个公司。我这样定义我的实体:

from pony import orm

class Company(db.Entity):
    '''A company entry in database'''
    name = orm.PrimaryKey(str)
    locations = orm.Set('Location')

class Location(db.Entity):
    '''A location for a company'''
    name = orm.PrimaryKey(str)
    companies = orm.Set('Company')

理想情况下,我希望能够编写一个函数,将公司添加到数据库中,同时添加该公司存在的位置列表,同时确保添加新的位置实例(如果它们不存在)已经存在。我可以很快想到两种方法。

首先是尝试输入该位置,即使它存在并处理异常:

@orm.db_session
def add_company(name, locations):
    loc_entities = []
    for l in locations:
        try:
            loc = Location[l]
        except orm.core.ObjectNotFound:
            loc = Location(name=l)
        else:
            loc_entities.append(loc)
    comp = Company(name=name, locations=loc_entities)

其次是查询数据库并询问位置是否存在:

@orm.db_session
def add_company2(name, locations):
    old_loc_entities = orm.select(l for l in Location if l.name in locations)[:]
    old_locations = [l.name for l in old_loc_entities]
    new_locations = set(locations) - (set(locations) & set(old_locations))
    loc_entities = [Location(name=l) for l in new_locations] + old_loc_entities
    comp = Company(name=name, locations=loc_entities)

在这两个中,我猜想更 pythonic 的方法是简单地处理异常,但这 运行 是否进入 N+1 问题?我注意到通过使用名称作为主键,每次使用索引访问实体时我都会进行查询。当我只是让小马选择顺序 id 时,我似乎不需要查询。我还没有用任何大型数据集对此进行测试,所以我还没有进行基准测试。

I'm noticing that by using the name as a primary key, I'm making a query every time I access the entity using an index. When I just let pony pick sequential ids, I don't seem to need to query.

Pony 内部缓存顺序主键的方式与字符串主键相同,所以我认为应该没有区别。每个 db_session 都有单独的缓存(称为 "identity map")。读取对象后,在同一 db_session 中通过主键(或任何其他唯一键)进行的任何访问都应该 return 直接从标识映射访问同一对象,而无需发出新查询。 db_session结束后,同一键的另一个访问将发出新的查询,因为该对象可能会被并发事务在数据库中修改。

关于你的方法,我认为两者都是有效的。如果一家公司只有几个地点(比如大约 10 个),我会使用第一种方法,因为它对我来说更像 pythonic。它确实会导致 N+1 查询,但是通过主键检索对象的查询非常快速且易于服务器执行。代码可以用get的方式表达得更紧凑一点:

@orm.db_session
def add_company(name, locations):
    loc_entities = [Location.get(name=l) or Location(name=l)
                    for l in locations]
    comp = Company(name=name, locations=loc_entities)

用单个查询检索所有现有位置的第二种方法对我来说似乎是过早的优化,但如果您每秒创建数百家公司,并且每个公司都有数百个位置,则可以使用它。

我知道这是 "get or create" 模式,无论 ORM 还是语言,总是必须实施它。

这是我给 Pony 的 "get or create"。

class GetMixin():
    @classmethod
    def get_or_create(cls, params):
        o = cls.get(**params)
        if o:
            return o
        return cls(**params)


class Location(db.Entity, GetMixin):
    '''A location for a company'''
    name = orm.PrimaryKey(str)
    companies = orm.Set('Company')

Mixin 在 docs 上有解释。

那么您的代码将如下所示:

@orm.db_session
def add_company(name, locations):
    loc_entities = [Location.get_or_create(name=l) for l in locations]
    comp = Company(name=name, locations=loc_entities)