Python NLTK 命名实体识别取决于首字母的（大）写？

Question

我计划使用 Python NLTK 进行学术研究。特别是，我需要一种筛选 Twitter 用户的方法，并梳理出那些似乎没有在个人资料中使用 "real name" 的用户。

我正在考虑使用默认的 NLTK 名称实体识别来区分使用看似真实姓名的 Twitter 用户和那些不是真实姓名的用户。你觉得值得一试吗？还是自己训练分类器？

import nltk
import re
import time

##contentArray0 =['Health Alerts', "Kenna Hill"]

contentArray =['ICU nurse toronto']

##let the fun begin!##
def processLanguage():
    try:
        for item in contentArray:
            tokenized = nltk.word_tokenize(item)
            tagged = nltk.pos_tag(tokenized)
            print tagged

            namedEnt = nltk.ne_chunk(tagged)
            ##namedEnt.draw()

            time.sleep(1)

    except Exception, e:
        print str(e)


processLanguage()

编辑：我做了一些测试。似乎 nltk 主要通过单词的第一个字母是否大写来识别名称实体？例如，"ICU Nurse Toronto" 将被 NNP 识别，而 "ICU nurse toronto" 则不会。这似乎过于简单化并且对我的目的（twitter）不是很有用，因为许多使用实名的 Twitter 用户可能使用小写字母，而一些商业组织将使用大写首字母。

Answer 1

一定要自己练一个。 NLTK 的 NE 识别器经过训练可以识别嵌入在完整句子中的命名实体。但是不要只是在新数据上重新训练 nltk 的 NE 识别器；它是一个 "sequential classifier"，这意味着它考虑了周围的词和 POS 标签以及前面词的命名实体分类。由于您已经拥有用户名，因此这些用户名对您的目的没有用处或相关性。

我建议您训练一个常规分类器（例如，朴素贝叶斯），将您认为可能相关的任何自定义特征提供给它，并让它做出决定 "is this a real name"。要进行训练，您必须有一个包含名称示例和非名称示例的训练语料库。理想情况下，语料库应包含您要分类的内容：推特句柄。

关于您评论中的问题，不要使用整个单词作为特征：您的分类器只能根据它知道的特征进行推理，因此除非您的特征是关于 [=名称的 20=]部分。通常这些特征代表结尾（最后一个字母、最后一个二元组、最后一个三元组），但你也可以尝试其他东西，比如长度，当然还有大写。 NLTK章节讨论了识别名字性别的任务，并给出了很多后缀特征的例子。

在你的情况下，要注意的是你有多个单词。因此，如果某些单词被识别为名称而某些则不是，则需要以某种方式告诉您的分类器。您必须以某种方式定义您的功能以保留此信息。例如，您可以将特征 "known names" 设置为具有值 "None"、"One"、"Several"、"All"。（请注意，NLTK 的实现将特征值视为 "categories"：它们只是不同的值。您可以使用 3 和 4 作为特征值，但就分类器而言，您还不如使用 "green" 和 "elevator".)

并且不要忘记添加具有常量值的 "bias" 特征（参见 NLTK 章节）。

Answer 2

你肯定得自己训练一个分类器。例如，由于您正在处理名称，您可以看看这个 NLTK chapter。本章描述的用于测试名称是 'male' 还是 'female' 的简单朴素贝叶斯分类器可以很好地洞察特征的种类。另外，您关于询问哪些功能的问题更像是一个问题和特定领域的问题。除了所有信息提取研究人员使用的通用特征外，可能还有其他类型的特征。但同样，这些完全取决于您的数据。请仔细阅读该章，它为您提供了构建自己的分类器的所有基本工具。

顺便说一句，既然你提到了 Twitter 用户名，我还建议使用规范化器，因为大多数名称可能只包含字母。例如，用户名也可以是 "T0m" 而不是 "Tom"。也许您已经在这样做了，如果您已经这样做了，我很抱歉再次重复。

Python NLTK 命名实体识别取决于首字母的（大）写？

Python NLTK named entity recognition depends by the (upper)case of first letter?

classification

nltk

python-2.7

text-classification