context/semantic 意大利语搜索的 BERT 问题

BERT problem with context/semantic search in italian language

我正在使用 BERT 模型在意大利语中进行上下文搜索,但它不理解句子的上下文含义,并且 return 的结果是错误的。

在下面的示例代码中,当我将“巧克力味牛奶”与两种其他类型的牛奶和一种巧克力进行比较时,它 return 与巧克力的相似度很高。它应该 return 与其他牛奶高度相似。

任何人都可以建议我对下面的代码进行任何改进,以便它可以 return 语义结果吗?

代码:

!python -m spacy download it_core_news_lg
!pip install sentence-transformers


import scipy
import numpy as np
from sentence_transformers import models, SentenceTransformer
model = SentenceTransformer('distiluse-base-multilingual-cased') # workes with Arabic, Chinese, Dutch, English, French, German, Italian, Korean, Polish, Portuguese, Russian, Spanish, Turkish

corpus = [
          "Alpro, Cioccolato bevanda a base di soia 1 ltr", #Alpro, Chocolate soy drink 1 ltr(soya milk)
          "Milka  cioccolato al latte 100 g", #Milka milk chocolate 100 g
          "Danone, HiPRO 25g Proteine gusto cioccolato 330 ml", #Danone, HiPRO 25g Protein chocolate flavor 330 ml(milk with chocolate flabor)
         ]
corpus_embeddings = model.encode(corpus)


queries = [
            'latte al cioccolato', #milk with chocolate flavor,
          ]
query_embeddings = model.encode(queries)


# Calculate Cosine similarity of query against each sentence i
closest_n = 10
for query, query_embedding in zip(queries, query_embeddings):
    distances = scipy.spatial.distance.cdist([query_embedding], corpus_embeddings, "cosine")[0]

    results = zip(range(len(distances)), distances)
    results = sorted(results, key=lambda x: x[1])

    print("\n======================\n")
    print("Query:", query)
    print("\nTop 10 most similar sentences in corpus:")

    for idx, distance in results[0:closest_n]:
        print(corpus[idx].strip(), "(Score: %.4f)" % (1-distance))

输出:

======================

Query: latte al cioccolato

Top 10 most similar sentences in corpus:
Milka  cioccolato al latte 100 g (Score: 0.7714)
Alpro, Cioccolato bevanda a base di soia 1 ltr (Score: 0.5586)
Danone, HiPRO 25g Proteine gusto cioccolato 330 ml (Score: 0.4569)

问题不在于您的代码,而在于模型性能不足。

您可以做几件事。首先,你可以试试 Universal Sentence Encoder (USE)。根据我的经验,他们的嵌入要好一些,至少在英语中是这样。

其次,您可以尝试不同的模型,例如sentence-transformers/xlm-r-distilroberta-base-paraphrase-v1。它基于 ROBERTa,可能会提供更好的性能。

现在您可以将来自多个模型的嵌入组合在一起(只需连接表示)。在某些情况下,它会有所帮助,但代价是计算量大得多。

您终于可以创建自己的模型了。众所周知,单一语言模型的性能明显优于多语言模型。您可以关注 the guide 并训练您自己的意大利语模型。