在 Java 中获得 'trigrams'
Getting 'trigrams' in Java
我在 Java 中获取 trigrams
时遇到了一些问题。我的程序目前可以 bigrams
正常,但是当我尝试实现相同的方法结构并将其更改为 trigrams
时,它似乎也无法正常工作。
我希望 trigrams
获得 arraylist
中所有可能的单词组合,例如
Original = [eye, test, find, free, nhs]
Trigram = [eye test find, 2, eye test free, 3, eye test nhs, 4, eye find free, 3, eye find nhs, 4, eye free nhs, 5, etc...]
数字决定了第一个单词和最后一个单词之间的距离,应该得到arraylist
中每一个3的单词组合。这目前适用于 bigrams
...
Original = [eye, test, find, free, nhs]
Bigram = [eye test, 1, eye find, 2, eye free, 3, eye nhs, 4, test find, 1, test free, 2, test nhs, 3, find free, 1, etc..]
方法如下
public ArrayList<String> bagOfWords;
public ArrayList<String> bigramList = new ArrayList<String>();
public ArrayList<String> trigramList = new ArrayList<String>();
public void trigram() throws FileNotFoundException{
PrintWriter tg = new PrintWriter(new File(trigramFile));
// CREATES THE TRIGRAM
for (int i = 0; i < bagOfWords.size() - 1; i++) {
for (int j = 1; j < bagOfWords.size() - 1; j++) {
for(int k = j + 1; k < bagOfWords.size(); k++){
int distance = (k - i);
if (distance < 4){
trigramList.add(bagOfWords.get(i) + " " + bagOfWords.get(j) + " " + bagOfWords.get(k) + ", " + distance);
}
}
}
}
public void bigram() throws FileNotFoundException{
// CREATES THE BIGRAM
PrintWriter bg = new PrintWriter(new File(bigramFile));
for (int i = 0; i < bagOfWords.size() - 1; i++) {
for (int j = i + 1; j < bagOfWords.size(); j++) {
int distance = (j - i);
if (distance < 4){
bigramList.add(bagOfWords.get(i) + " " + bagOfWords.get(j) + ", " + distance);
}
}
}
任何人都可以帮我修改 trigram()
方法来创建一个适合我需要的 trigram
吗?
感谢您的帮助。
您希望 j
从 i+1
开始,对吗?另外,我认为您让 i
计数到很远。它应该停在 bagOfWords.size() - 2
。我不确定你为什么检查 distance < 4
。这将丢弃有效的组。
public void trigram() throws FileNotFoundException{
PrintWriter tg = new PrintWriter(new File(trigramFile));
// CREATES THE TRIGRAM
for (int i = 0; i < bagOfWords.size() - 2; i++) {
for (int j = i + 1; j < bagOfWords.size() - 1; j++) {
for(int k = j + 1; k < bagOfWords.size(); k++){
int distance = (k - i);
trigramList.add(bagOfWords.get(i) + " " + bagOfWords.get(j) + " " + bagOfWords.get(k) + ", " + distance);
}
}
}
@bradimus 的回答完全正确。我只是要展示另一种方法。您是否注意到,您的方法非常相似?那么,为什么不尝试将其合并为一种通用方法呢?类似以下内容:
public List<String> anygram(List<String> bagOfWords, int gramCount){
List<String> result = new ArrayList<String>();
for(int i=0;i<=bagOfWords.size()-gramCount; i++){
for(int j=i; j+gramCount<=bagOfWords.size(); j++){
StringBuilder builder = new StringBuilder();
builder.append(bagOfWords.get(i));
int k = j+1;
for(; k<j+gramCount; k++){
builder.append(" ");
builder.append(bagOfWords.get(k));
}
builder.append(", ").append(k-i-1);
result.add(builder.toString());
}
}
return result;
}
我的回答不是为了评分。我只是对这个任务感兴趣,所以才来解决这个问题。
我在 Java 中获取 trigrams
时遇到了一些问题。我的程序目前可以 bigrams
正常,但是当我尝试实现相同的方法结构并将其更改为 trigrams
时,它似乎也无法正常工作。
我希望 trigrams
获得 arraylist
中所有可能的单词组合,例如
Original = [eye, test, find, free, nhs]
Trigram = [eye test find, 2, eye test free, 3, eye test nhs, 4, eye find free, 3, eye find nhs, 4, eye free nhs, 5, etc...]
数字决定了第一个单词和最后一个单词之间的距离,应该得到arraylist
中每一个3的单词组合。这目前适用于 bigrams
...
Original = [eye, test, find, free, nhs]
Bigram = [eye test, 1, eye find, 2, eye free, 3, eye nhs, 4, test find, 1, test free, 2, test nhs, 3, find free, 1, etc..]
方法如下
public ArrayList<String> bagOfWords;
public ArrayList<String> bigramList = new ArrayList<String>();
public ArrayList<String> trigramList = new ArrayList<String>();
public void trigram() throws FileNotFoundException{
PrintWriter tg = new PrintWriter(new File(trigramFile));
// CREATES THE TRIGRAM
for (int i = 0; i < bagOfWords.size() - 1; i++) {
for (int j = 1; j < bagOfWords.size() - 1; j++) {
for(int k = j + 1; k < bagOfWords.size(); k++){
int distance = (k - i);
if (distance < 4){
trigramList.add(bagOfWords.get(i) + " " + bagOfWords.get(j) + " " + bagOfWords.get(k) + ", " + distance);
}
}
}
}
public void bigram() throws FileNotFoundException{
// CREATES THE BIGRAM
PrintWriter bg = new PrintWriter(new File(bigramFile));
for (int i = 0; i < bagOfWords.size() - 1; i++) {
for (int j = i + 1; j < bagOfWords.size(); j++) {
int distance = (j - i);
if (distance < 4){
bigramList.add(bagOfWords.get(i) + " " + bagOfWords.get(j) + ", " + distance);
}
}
}
任何人都可以帮我修改 trigram()
方法来创建一个适合我需要的 trigram
吗?
感谢您的帮助。
您希望 j
从 i+1
开始,对吗?另外,我认为您让 i
计数到很远。它应该停在 bagOfWords.size() - 2
。我不确定你为什么检查 distance < 4
。这将丢弃有效的组。
public void trigram() throws FileNotFoundException{
PrintWriter tg = new PrintWriter(new File(trigramFile));
// CREATES THE TRIGRAM
for (int i = 0; i < bagOfWords.size() - 2; i++) {
for (int j = i + 1; j < bagOfWords.size() - 1; j++) {
for(int k = j + 1; k < bagOfWords.size(); k++){
int distance = (k - i);
trigramList.add(bagOfWords.get(i) + " " + bagOfWords.get(j) + " " + bagOfWords.get(k) + ", " + distance);
}
}
}
@bradimus 的回答完全正确。我只是要展示另一种方法。您是否注意到,您的方法非常相似?那么,为什么不尝试将其合并为一种通用方法呢?类似以下内容:
public List<String> anygram(List<String> bagOfWords, int gramCount){
List<String> result = new ArrayList<String>();
for(int i=0;i<=bagOfWords.size()-gramCount; i++){
for(int j=i; j+gramCount<=bagOfWords.size(); j++){
StringBuilder builder = new StringBuilder();
builder.append(bagOfWords.get(i));
int k = j+1;
for(; k<j+gramCount; k++){
builder.append(" ");
builder.append(bagOfWords.get(k));
}
builder.append(", ").append(k-i-1);
result.add(builder.toString());
}
}
return result;
}
我的回答不是为了评分。我只是对这个任务感兴趣,所以才来解决这个问题。