context/semantic 意大利语搜索的 BERT 问题
BERT problem with context/semantic search in italian language
我正在使用 BERT 模型在意大利语中进行上下文搜索,但它不理解句子的上下文含义,并且 return 的结果是错误的。
在下面的示例代码中,当我将“巧克力味牛奶”与两种其他类型的牛奶和一种巧克力进行比较时,它 return 与巧克力的相似度很高。它应该 return 与其他牛奶高度相似。
任何人都可以建议我对下面的代码进行任何改进,以便它可以 return 语义结果吗?
代码:
!python -m spacy download it_core_news_lg
!pip install sentence-transformers
import scipy
import numpy as np
from sentence_transformers import models, SentenceTransformer
model = SentenceTransformer('distiluse-base-multilingual-cased') # workes with Arabic, Chinese, Dutch, English, French, German, Italian, Korean, Polish, Portuguese, Russian, Spanish, Turkish
corpus = [
"Alpro, Cioccolato bevanda a base di soia 1 ltr", #Alpro, Chocolate soy drink 1 ltr(soya milk)
"Milka cioccolato al latte 100 g", #Milka milk chocolate 100 g
"Danone, HiPRO 25g Proteine gusto cioccolato 330 ml", #Danone, HiPRO 25g Protein chocolate flavor 330 ml(milk with chocolate flabor)
]
corpus_embeddings = model.encode(corpus)
queries = [
'latte al cioccolato', #milk with chocolate flavor,
]
query_embeddings = model.encode(queries)
# Calculate Cosine similarity of query against each sentence i
closest_n = 10
for query, query_embedding in zip(queries, query_embeddings):
distances = scipy.spatial.distance.cdist([query_embedding], corpus_embeddings, "cosine")[0]
results = zip(range(len(distances)), distances)
results = sorted(results, key=lambda x: x[1])
print("\n======================\n")
print("Query:", query)
print("\nTop 10 most similar sentences in corpus:")
for idx, distance in results[0:closest_n]:
print(corpus[idx].strip(), "(Score: %.4f)" % (1-distance))
输出:
======================
Query: latte al cioccolato
Top 10 most similar sentences in corpus:
Milka cioccolato al latte 100 g (Score: 0.7714)
Alpro, Cioccolato bevanda a base di soia 1 ltr (Score: 0.5586)
Danone, HiPRO 25g Proteine gusto cioccolato 330 ml (Score: 0.4569)
问题不在于您的代码,而在于模型性能不足。
您可以做几件事。首先,你可以试试 Universal Sentence Encoder (USE)。根据我的经验,他们的嵌入要好一些,至少在英语中是这样。
其次,您可以尝试不同的模型,例如sentence-transformers/xlm-r-distilroberta-base-paraphrase-v1
。它基于 ROBERTa,可能会提供更好的性能。
现在您可以将来自多个模型的嵌入组合在一起(只需连接表示)。在某些情况下,它会有所帮助,但代价是计算量大得多。
您终于可以创建自己的模型了。众所周知,单一语言模型的性能明显优于多语言模型。您可以关注 the guide 并训练您自己的意大利语模型。
我正在使用 BERT 模型在意大利语中进行上下文搜索,但它不理解句子的上下文含义,并且 return 的结果是错误的。
在下面的示例代码中,当我将“巧克力味牛奶”与两种其他类型的牛奶和一种巧克力进行比较时,它 return 与巧克力的相似度很高。它应该 return 与其他牛奶高度相似。
任何人都可以建议我对下面的代码进行任何改进,以便它可以 return 语义结果吗?
代码:
!python -m spacy download it_core_news_lg
!pip install sentence-transformers
import scipy
import numpy as np
from sentence_transformers import models, SentenceTransformer
model = SentenceTransformer('distiluse-base-multilingual-cased') # workes with Arabic, Chinese, Dutch, English, French, German, Italian, Korean, Polish, Portuguese, Russian, Spanish, Turkish
corpus = [
"Alpro, Cioccolato bevanda a base di soia 1 ltr", #Alpro, Chocolate soy drink 1 ltr(soya milk)
"Milka cioccolato al latte 100 g", #Milka milk chocolate 100 g
"Danone, HiPRO 25g Proteine gusto cioccolato 330 ml", #Danone, HiPRO 25g Protein chocolate flavor 330 ml(milk with chocolate flabor)
]
corpus_embeddings = model.encode(corpus)
queries = [
'latte al cioccolato', #milk with chocolate flavor,
]
query_embeddings = model.encode(queries)
# Calculate Cosine similarity of query against each sentence i
closest_n = 10
for query, query_embedding in zip(queries, query_embeddings):
distances = scipy.spatial.distance.cdist([query_embedding], corpus_embeddings, "cosine")[0]
results = zip(range(len(distances)), distances)
results = sorted(results, key=lambda x: x[1])
print("\n======================\n")
print("Query:", query)
print("\nTop 10 most similar sentences in corpus:")
for idx, distance in results[0:closest_n]:
print(corpus[idx].strip(), "(Score: %.4f)" % (1-distance))
输出:
======================
Query: latte al cioccolato
Top 10 most similar sentences in corpus:
Milka cioccolato al latte 100 g (Score: 0.7714)
Alpro, Cioccolato bevanda a base di soia 1 ltr (Score: 0.5586)
Danone, HiPRO 25g Proteine gusto cioccolato 330 ml (Score: 0.4569)
问题不在于您的代码,而在于模型性能不足。
您可以做几件事。首先,你可以试试 Universal Sentence Encoder (USE)。根据我的经验,他们的嵌入要好一些,至少在英语中是这样。
其次,您可以尝试不同的模型,例如sentence-transformers/xlm-r-distilroberta-base-paraphrase-v1
。它基于 ROBERTa,可能会提供更好的性能。
现在您可以将来自多个模型的嵌入组合在一起(只需连接表示)。在某些情况下,它会有所帮助,但代价是计算量大得多。
您终于可以创建自己的模型了。众所周知,单一语言模型的性能明显优于多语言模型。您可以关注 the guide 并训练您自己的意大利语模型。