Python字符串匹配完全等于Postgresql相似度函数

Python String Matching exactly equal to Postgresql Similarity function

我一直在使用 PostgreSQL 中 pg_trgm 模块的相似度函数,现在我正在搜索类似于 Python 中的 Similarity 的单词相似度函数。我在 python 中找到了很多方法,例如difflib, nltk, but none 这些方法产生的结果类似于 PostgreSQL 的 Similarity 函数。

我一直在使用这段代码进行单词匹配,但结果与 PostgreSQL 相似度函数的结果大不相同。这些结果是否比 PostgreSQL 的 Similarity function 更好?是否有任何方法或库可用于生成类似于 PostgreSQL Similarity 函数的结果?

from difflib import SequenceMatcher
import nltk
from fuzzywuzzy import fuzz

def similar(a,b):
    return SequenceMatcher(None,a,b).ratio()

def longest_common_substring(s1, s2):
    m = [[0] * (1 + len(s2)) for i in xrange(1 + len(s1))]
    longest, x_longest = 0, 0
    for x in xrange(1, 1 + len(s1)):
        for y in xrange(1, 1 + len(s2)):
            if s1[x - 1] == s2[y - 1]:
                m[x][y] = m[x - 1][y - 1] + 1
                if m[x][y] > longest:
                    longest = m[x][y]
                    x_longest = x
            else:
                m[x][y] = 0
    return s1[x_longest - longest: x_longest]

def similarity(s1, s2):
    return 2. * len(longest_common_substring(s1, s2)) / (len(s1) + len(s2)) * 100

print similarity("New Highway Classic Academy Lahore","Old Highway Classic Academy")
print nltk.edit_distance("This is Your Shop","This")
print fuzz.ratio("ISE-Tower","UfTowerong,")

来自 PostgreSQL 文档:https://www.postgresql.org/docs/9.1/static/pgtrgm.html

三元组是从字符串中提取的一组三个连续字符。我们可以通过计算它们共享的三元组的数量来衡量两个字符串的相似性。事实证明,这个简单的想法对于衡量许多自然语言中单词的相似性非常有效。

注意:在判断八卦集合时,一个字符串被认为有两个space前缀和一个space后缀包含在字符串中。例如,字符串"cat"中的三元组为“c”、“ca”、"cat"、"at "、

python 中没有此功能的内置模块。可能有诸如 fuzzyset 之类的库可以提供帮助 - 但无论哪种方式,python 中都没有为此提供标准功能。

我知道这是旧的,但我需要同样的东西,当谷歌搜索 python 与 postgres 相似的包时,我没有找到任何东西。

所以我写了一个非常基本的函数来做到这一点。我已经在几个字符串上对其进行了测试,它似乎给出了与 postgres 完全相同的结果。如果您有兴趣,请看这里:

import re


def find_ngrams(text: str, number: int=3) -> set:
    """
    returns a set of ngrams for the given string
    :param text: the string to find ngrams for
    :param number: the length the ngrams should be. defaults to 3 (trigrams)
    :return: set of ngram strings
    """

    if not text:
        return set()

    words = [f'  {x} ' for x in re.split(r'\W+', text.lower()) if x.strip()]

    ngrams = set()

    for word in words:
        for x in range(0, len(word) - number + 1):
            ngrams.add(word[x:x+number])

    return ngrams


def similarity(text1: str, text2: str, number: int=3) -> float:
    """
    Finds the similarity between 2 strings using ngrams.
    0 being completely different strings, and 1 being equal strings
    """

    ngrams1 = find_ngrams(text1, number)
    ngrams2 = find_ngrams(text2, number)

    num_unique = len(ngrams1 | ngrams2)
    num_equal = len(ngrams1 & ngrams2)

    return float(num_equal) / float(num_unique)