从 google 工作表中的关键字分析中排除某些文本

exclude certain text from keyword analysis in google sheets

我正在尝试对收到的电子邮件的主题进行一些分析。我有以下格式的 Google-sheet 格式的电子邮件。我正在计算 'privacy' 或 'confidentiality' 被提及的频率。我的挑战是几乎每个电子邮件签名都提到了其中一个词,所以当我使用 SEARCH 每个单元格 returns TRUE.

大多数电子邮件签名都以相似的短语开头,因此我尝试使用以下公式删除这些短语之后的所有内容:

=ArrayFormula(TRIM(LEFT(B1:B,MIN(IFERROR(FIND({" This email and any","IMPORTANT NOTICE", " Important notice","The information in this email"," The contents of this message"," Information in this email including"," This electronic mail message"," this message and any attachments"," This message is intended for the addressee only"," This email is CONFIDENTIAL"},B1:B),LEN(L2))))))

B 列是包含电子邮件 body 文本的列。

然而,这似乎是在删除不在我的搜索中的单词之后的文本(例如删除 'not' 之后的所有内容,而不是 'IMPORTANT NOTICE')。

任何人都可以建议:

  1. 我上面的搜索有什么问题
  2. 另一种搜索 'privacy' 和 'confidentiality' 的方法,不包括来自电子邮件签名的文本。

示例table: |电子邮件标题|电子邮件 body| |------------|------------| |要不要买我的东西|您好,我想知道您是否愿意购买我想卖给您的这件东西。重要提示:此电子邮件是私人的| |two-for-the-price-of-one|我有一个很好的报价给你!此电子邮件和附件是私人和机密的| |最后一次买东西的机会!|能不能私聊一下你要不要买我的东西?|

在上面的示例中,我想计算第 3 行,而不是第 1 行和第 2 行,因为签名中 1 和 2 中提到的 'private' 和 'confidential'。

谢谢!

我想我明白你所描述的错误出现在你的公式中。一旦公式找到您用来尝试识别电子邮件签名的值之一,例如“重要通知”,以及 returns 该文本的位置,比如说位置 96,它就会使用 96 作为所有细胞,像这样:LEFT(B1:B,96)。因此,您可能无法执行您正在尝试的数组公式的复合数组公式。

在 B2 中使用这样的公式,并将其向下拖动,应该可以:

=ArrayFormula(TRIM(LEFT(B2,MIN(IFERROR(
  FIND({" This email and any","IMPORTANT NOTICE", " Important notice","The information in this email"," The contents of this message"," Information in this email including"," This electronic mail message"," this message and any attachments"," This message is intended for the addressee only"," This email is CONFIDENTIAL"},B2),
  LEN(L2))))))

注意:我不确定你的 L2 中有什么值。

但对于整体方法而言,这实际上取决于您的术语识别电子邮件签名的效果如何,以便将它们排除在最终的全文搜索之外。