Java中的编辑距离:如何安排代码?

Edit distance in Java: How arrange the code?

我正在研究一个关于编辑距离的 Java 项目,即最小操作数(在定义的三个操作中,请参阅 here 了解更多信息!)。我对 Java 完全陌生,它似乎是一种很棒的面向对象语言,但可能不像 Matlab 那样面向数字。问题是我不知道 Matlab 或 Python 中的所有相应函数在 Java 中有哪些可以实现我对这个项目的解决方案,所以我需要的只是一点建设性的帮助。

代码如下(别担心,我不指望任何人都能理解 code/algorithm,但它确实有效!)

代码

import java.util.LinkedList;
import java.util.List;

public class ClosestWords {
  LinkedList<String> closestWords = null;
  int closestDistance = -1;

  int[][] partDist(String w1, String w2, int w1len, int w2len) {
      int[][] M = new int[w1len+1][w2len+1];
      for(int i=0;i<=w1len;i++) {
          for(int j=0;j<=w2len;j++) {
              if( i == 0) {
                  M[i][j] = j;
                  }
              else if(j==0) {
                  M[i][j] = i;
                  }
              else {
                  char a = w1.charAt(i-1);
                  char b = w2.charAt(j-1);
                  int I = (a == b ? 0:1);
                  M[i][j] = Math.min(Math.min(M[i-1][j]+1,M[i][j-1]+1),M[i-1][j-1]+I);
              }
          }
      }
  return M;
  }

  int[][] Distance(String w1, String w2) {
    return partDist(w1, w2, w1.length(), w2.length());
  }

  public ClosestWords(String w, List<String> wordList) {
      for (String s : wordList) {
          int[][] M = Distance(w, s);
          int dist = M[w.length()-1][s.length()-1];
          // int dist = Distance(w, s);
          // System.out.println("d(" + w + "," + s + ")=" + dist);
          if (dist < closestDistance || closestDistance == -1) {
              closestDistance = dist;
              closestWords = new LinkedList<String>();
              closestWords.add(s);
              }
          else if (dist == closestDistance)
              closestWords.add(s);
          }
      }

  int getMinDistance() {
    return closestDistance;
  }

  List<String> getClosestWords() {
    return closestWords;
  }
}

现在,我想做的(但我不知道该怎么做)是更新 ClosestWordsfor 循环内的矩阵 M。在 Matlab 中,这很容易:我只需将矩阵设置为某种初始形式,然后对于每个循环,我们将从函数调用 Distance(w, s) 中获得一个新矩阵。反过来,我想修改这个新矩阵,即从中删除一些最后的行。我该怎么做呢?例如,我有一个 4 乘 4 的 M 矩阵,然后我删除最后一行,所以我得到 3 乘 4 的 M_new。这可能吗?

此外,如果我必须使用可能不同长度的字符串,我如何检查(以最简单的方式)它们的第一个字母中有多少是相同的?也就是说,从左边开始并且彼此相等的字符串的子串的最大长度?例如,computecommute 将有三个共同的首字母(从左边开始),因此首字母中的三个相同。

此致,

Java 不太适合这类工作(这里想到 APL)。如果这不是一个练习,我会使用现有的库来做到这一点。如果这是一个练习,我会检查一个开源库是如何做到这一点的。

最后,你可以:

1) 将原始内容复制到一个新分配的较小尺寸的矩阵中。

2) 移动当前矩阵中的值并使用外部数据来跟踪矩阵的逻辑大小。

3) ...

对于你的第二个问题,我会将单词添加到树结构中,并找到从根开始的最长子分支,该子分支至少有两个子分支。

或者简单地按字母顺序排序并比较每个相邻的字符串。