选择在 Peewee 模型中存储 Raw HTML 的字段

Which Field to choose for storing Raw HTML inside a Peewee Model

我正在将 Peewee ORM 与 SQLite 数据库一起使用,我想将 HTML 的 chuck 存储在数据库中

我在选择最适合的存储字段之间陷入困境 HTML 基本上整个网页包括 css js html 等任何包含该网页的网页都是通过 r = requests.get(url)

我的代码:

class BaseModel(Model):
    class Meta:
        database = db

class Page(BaseModel):
    raw_html = CharField(unique=True) # stucked here between choosing a best suited field

它基本上是为了从网站抓取页面,将整个页面或页面保存在数据库中,因为它会在数据库中,我以后可以处理该数据提取信息,或者我可以用它做任何我想做的事情

我知道我可以使用其他抓取工具库,例如 scrap.py 等,但我想这样做!

CharField 不是一个好的选择,因为它需要您事先知道数据的长度。改为使用 TextField - 它被设置为 来存储任意大的字符串 :

class Page(BaseModel):
    raw_html = TextField(unique=True)