自然语言处理 |用于双字母组的 LimeTextExplainer
NLP | LimeTextExplainer for bigrams
在我的 NLP 任务中,我想了解 classifier 的 'rule'。为此,我构建了一个 LimeTExtExplainer。
c= make_pipeline(cv,naive_bayes)
explainer = LimeTextExplainer(class_names=class_names, random_state=42, bow=False)
exp = explainer.explain_instance(X_test[i], c.predict_proba, num_features=20,)
fig = exp.as_pyplot_figure()
上面的代码创建了一个很好的 1gram 列表,完全符合我的要求。
:
下一步我想做同样的事情,但使用双字母组。我将特征提取器更改为仅计算双字母组:
cv = CountVectorizer(strip_accents='ascii', analyzer='word',
token_pattern=u'(?ui)\b\w*[a-z]+\w*\b',
lowercase=True, stop_words='english',
ngram_range=(2,2), max_features=None)
问题:
- 我对 Limeexplainer 使用与上面相同的代码。但是现在,
图表和以前一样只显示 1grams,但我只计算了 bigrams。
- 作为附带问题,图表的横轴显示
该词占class化的绝对概率
可能性?例如,文本 class X 概率为 0.67,
识别占 ~ 0.009,语言占 0.67 的 ~ 0.007,
对吗?
提前致谢!
至少我得到了第二个问题的答案:
这些是概率,但不是我想的那样。
例如,Class X 的预测概率为 0.808。如果现在单词 'recognit' 将从基础语料库中删除,则预测 class 的总预测概率将缩小 0.008。--> 概率 class x 等于 0.800 那么。
有关 LIME 的详细信息,我强烈推荐:
“我为什么要相信你?”解释任何 Classifier 的预测,Riberio et.al (2016)
在我的 NLP 任务中,我想了解 classifier 的 'rule'。为此,我构建了一个 LimeTExtExplainer。
c= make_pipeline(cv,naive_bayes)
explainer = LimeTextExplainer(class_names=class_names, random_state=42, bow=False)
exp = explainer.explain_instance(X_test[i], c.predict_proba, num_features=20,)
fig = exp.as_pyplot_figure()
上面的代码创建了一个很好的 1gram 列表,完全符合我的要求。
:
下一步我想做同样的事情,但使用双字母组。我将特征提取器更改为仅计算双字母组:
cv = CountVectorizer(strip_accents='ascii', analyzer='word',
token_pattern=u'(?ui)\b\w*[a-z]+\w*\b',
lowercase=True, stop_words='english',
ngram_range=(2,2), max_features=None)
问题:
- 我对 Limeexplainer 使用与上面相同的代码。但是现在, 图表和以前一样只显示 1grams,但我只计算了 bigrams。
- 作为附带问题,图表的横轴显示 该词占class化的绝对概率 可能性?例如,文本 class X 概率为 0.67, 识别占 ~ 0.009,语言占 0.67 的 ~ 0.007, 对吗?
提前致谢!
至少我得到了第二个问题的答案:
这些是概率,但不是我想的那样。
例如,Class X 的预测概率为 0.808。如果现在单词 'recognit' 将从基础语料库中删除,则预测 class 的总预测概率将缩小 0.008。--> 概率 class x 等于 0.800 那么。
有关 LIME 的详细信息,我强烈推荐: “我为什么要相信你?”解释任何 Classifier 的预测,Riberio et.al (2016)