Java 中的智能字符串匹配可能吗?
Intelligent String matching in Java possible?
我目前正在编写一个简单的字符串匹配器,用于检查两个字符串是否相同。我想实现一种智能的方式来执行此操作,以便它可以识别大多数字符何时匹配,其中一些 space 表示错误。
例如,单词 "program" 和 "prgoram" 之间的比较可以被视为匹配,因为它会智能地允许拼写错误。但是单词 "horse" 和 "esroh" 会被检测为不匹配。
Java 中有什么东西可以让我很容易地使用它来实现这一点,还是编写带有大量不同检查的自定义方法的情况?
您可以使用 Levenshtein 字符串距离等算法来实现此目的。该算法为您提供了将一个字符串更改为另一个字符串所需的步骤数,因此所需的步骤越少,字符串就越相似。
作为一个随时可用的库,我推荐 StringUtils
在 Apache Commons 中找到。你可以看看here.
我知道它的老问题了。但这可能对其他人有帮助。
使用 "Levenshtein's Edit Distance as a Fuzzy String Match" Java 在 Apache Commons 中有一个库。但是万一你不能得到这个库或者可能需要用于其他开发目的(比如 android),这里有一个 Levenshtein.java 代码..
Details about Fuzzy String match
public class Levenshtein
{
public Levenshtein()
{
super();
}
public double compare(final String s1, final String s2)
{
double retval = 0.0;
final int n = s1.length();
final int m = s2.length();
if (0 == n)
{
retval = m;
}
else if (0 == m)
{
retval = n;
}
else
{
retval = 1.0 - (compare(s1, n, s2, m) / (Math.max(n, m)));
}
return retval;
}
private double compare(final String s1, final int n,
final String s2, final int m)
{
int matrix[][] = new int[n + 1][m + 1];
for (int i = 0; i <= n; i++)
{
matrix[i][0] = i;
}
for (int i = 0; i <= m; i++)
{
matrix[0][i] = i;
}
for (int i = 1; i <= n; i++)
{
int s1i = s1.codePointAt(i - 1);
for (int j = 1; j <= m; j++)
{
int s2j = s2.codePointAt(j - 1);
final int cost = s1i == s2j ? 0 : 1;
matrix[i][j] = min3(matrix[i - 1][j] + 1,
matrix[i][j - 1] + 1,
matrix[i - 1][j - 1] + cost);
}
}
return matrix[n][m];
}
private int min3(final int a, final int b, final int c)
{
return Math.min(Math.min(a, b), c);
}
}
只需从主 class 调用并使用 Double 值进行进一步的工作。
Levenshtein x=new Levenshtein();
Double n=x.compare("My nam s jesmeen", "my name");
我目前正在编写一个简单的字符串匹配器,用于检查两个字符串是否相同。我想实现一种智能的方式来执行此操作,以便它可以识别大多数字符何时匹配,其中一些 space 表示错误。
例如,单词 "program" 和 "prgoram" 之间的比较可以被视为匹配,因为它会智能地允许拼写错误。但是单词 "horse" 和 "esroh" 会被检测为不匹配。
Java 中有什么东西可以让我很容易地使用它来实现这一点,还是编写带有大量不同检查的自定义方法的情况?
您可以使用 Levenshtein 字符串距离等算法来实现此目的。该算法为您提供了将一个字符串更改为另一个字符串所需的步骤数,因此所需的步骤越少,字符串就越相似。
作为一个随时可用的库,我推荐 StringUtils
在 Apache Commons 中找到。你可以看看here.
我知道它的老问题了。但这可能对其他人有帮助。
使用 "Levenshtein's Edit Distance as a Fuzzy String Match" Java 在 Apache Commons 中有一个库。但是万一你不能得到这个库或者可能需要用于其他开发目的(比如 android),这里有一个 Levenshtein.java 代码.. Details about Fuzzy String match
public class Levenshtein
{
public Levenshtein()
{
super();
}
public double compare(final String s1, final String s2)
{
double retval = 0.0;
final int n = s1.length();
final int m = s2.length();
if (0 == n)
{
retval = m;
}
else if (0 == m)
{
retval = n;
}
else
{
retval = 1.0 - (compare(s1, n, s2, m) / (Math.max(n, m)));
}
return retval;
}
private double compare(final String s1, final int n,
final String s2, final int m)
{
int matrix[][] = new int[n + 1][m + 1];
for (int i = 0; i <= n; i++)
{
matrix[i][0] = i;
}
for (int i = 0; i <= m; i++)
{
matrix[0][i] = i;
}
for (int i = 1; i <= n; i++)
{
int s1i = s1.codePointAt(i - 1);
for (int j = 1; j <= m; j++)
{
int s2j = s2.codePointAt(j - 1);
final int cost = s1i == s2j ? 0 : 1;
matrix[i][j] = min3(matrix[i - 1][j] + 1,
matrix[i][j - 1] + 1,
matrix[i - 1][j - 1] + cost);
}
}
return matrix[n][m];
}
private int min3(final int a, final int b, final int c)
{
return Math.min(Math.min(a, b), c);
}
}
只需从主 class 调用并使用 Double 值进行进一步的工作。
Levenshtein x=new Levenshtein();
Double n=x.compare("My nam s jesmeen", "my name");