在python中使用NLTK标记文本-yiteyi-C++库

要运行下面的python程序，必须在系统中安装（NLTK）自然语言工具包。 NLTK模块是一个庞大的工具包，旨在帮助您使用整个自然语言处理（NLP）方法。要安装NLTK，请在终端中运行以下命令。

null

sudo pip安装nltk
然后，在终端中输入python shell，只需键入 python
类型 导入nltk
nltk。下载（“全部”）

由于要下载大量的标记器、分块器、其他算法和所有语料库，上述安装将需要相当长的时间。

语料库 –正文，单数。Corpora是这个的复数形式。
词汇 –词语及其含义。

代币 –每一个“实体”都是根据规则分割的部分。例如，当一个句子被“标记化”为单词时，每个单词都是一个标记。如果将段落中的句子标记化，则每个句子也可以是标记。

所以基本上标记化包括从文本主体中拆分句子和单词。

                         # import the existing word and sentence tokenizing                       
                         # libraries                       
                         from                                     nltk.tokenize                                     import                                     sent_tokenize, word_tokenize                       
                                   
                         text                                     =                                     "Natural language processing (NLP) is a field "                                     +                                               
                                                 "of computer science, artificial intelligence "                                     +                                               
                                                 "and computational linguistics concerned with "                                     +                                               
                                                 "the interactions between computers and human "                                     +                                               
                                                 "(natural) languages, and, in particular, "                                     +                                               
                                                 "concerned with programming computers to "                                     +                                               
                                                 "fruitfully process large natural language "                                     +                                               
                                                 "corpora. Challenges in natural language "                                     +                                               
                                                 "processing frequently involve natural "                                     +                                               
                                                 "language understanding, natural language"                                     +                                               
                                                 "generation frequently from formal, machine"                                     +                                               
                                                 "-readable logical forms), connecting language "                                     +                                               
                                                 "and machine perception, managing human-"                                     +                                               
                                                 "computer dialog systems, or some combination "                                     +                                               
                                                 "thereof."                       
                                   
                         print                                     (sent_tokenize(text))                       
                         print                                     (word_tokenize(text))`                       

输出【自然语言处理（NLP）是计算机科学、人工智能和计算语言学的一个领域，研究计算机和人类（自然）之间的相互作用语言，尤其是与计算机编程有关的，以有效地处理大型自然语言语料库自然语言处理中的挑战通常涉及自然语言理解、自然语言生成（通常来自正式的、机器可读的逻辑形式）、连接语言和机器感知、管理人机对话系统，或两者的某种组合。“] [‘自然’、‘语言’、‘处理’、（’、‘NLP’、’）、‘是’、‘a’、‘领域’、‘of’、‘计算机’、‘科学’、‘人工’、‘智能’、‘计算’、‘语言学’、‘关注’、‘与’、‘交互’、‘计算机之间’、‘与’、‘人类’、‘自然’、’（‘自然’、’）“，”语言“，”和“，”特别“，”与“，”有关“，”编程“，”计算机“，”到“，”结果“，”过程“，”大型“，”自然“，”语言“，”语料库“，”等等挑战“，”in“，”自然“，”语言“，”处理“，”频繁“，”涉及“，”自然“，”语言“，”理解“，”自然“，”语言“，”生成“，”（“，”频繁“，”来自“，”形式“，”机器可读“，”逻辑“，”形式“，”，”连接“，”语言“，”和“，“‘机器’、‘感知’、‘管理’、‘人机’、‘对话’、‘系统’、‘或’、‘某些’、‘组合’、‘其组合’、’”

在这里，我们创建了标记，最初是句子，后来是单词。

本文由 普拉蒂玛·乌帕迪亚 .如果你喜欢GeekSforgek，并想贡献自己的力量，你也可以使用贡献极客。组织或者把你的文章寄到contribute@geeksforgeeks.org.看到你的文章出现在Geeksforgeks主页上，并帮助其他极客。

如果您发现任何不正确的地方，或者您想分享有关上述主题的更多信息，请写下评论。

文章版权归作者所有，未经允许请勿转载。

THE END

Python