当前位置:首页 > 编程技术 > 正文内容

在 NLP 中训练 Unigram 标记器

yc8889个月前 (08-10)编程技术218

介绍

单个标记称为 unigram。Unigram 标记器是一种只需要一个单词来推断单词的词性标记器类型。它有一个单词的上下文。NLTK库为我们提供了UnigramTagger,并从NgramTagger继承而来。

在本文中,让我们了解 Unigram Tagger 在 NLP 中的训练过程。

Unigram Tagger及其使用NLTK的培训

加工

  • UnigramTagger继承自ContextTagger。实现了 context() 方法。上下文方法具有与 choose_tag() 相同的参数

  • 从 context() 方法中,将使用单词标记来创建模型。这个词用于寻找最好的标签。

  • UnigramTagger将创建一个带有上下文的模型。

蟒蛇实现

import nltk nltk.download('treebank') from nltk.tag import UnigramTagger from nltk.corpus import treebank as tb sentences_trained = treebank.tagged_sents()[:4000] uni_tagger = UnigramTagger(sentences_trained) print("Sample Sentence : ",tb.sents()[1]) print("Tag sample sentence : ", uni_tagger.tag(tb.sents()[1]))

输出

Sample Sentence :  ['Mr.', 'Vinken', 'is', 'chairman', 'of', 'Elsevier', 'N.V.', ',', 'the', 'Dutch', 'publishing', 'group', '.'] Tag sample sentence :  [('Mr.', 'NNP'), ('Vinken', 'NNP'), ('is', 'VBZ'), ('chairman', 'NN'), ('of', 'IN'), ('Elsevier', 'NNP'), ('N.V.', 'NNP'), (',', ','), ('the', 'DT'), ('Dutch', 'JJ'), ('publishing', 'NN'), ('group', 'NN'), ('.', '.')]

在上面的代码示例中,第一个 Unigram 标记器是在 Treebank 的前 4000 个句子上进行训练的。训练句子后,对任何句子使用相同的标记器对其进行标记。在上面的代码示例中,使用了句子 1。

下面的代码示例可用于测试Unigram标记器并对其进行评估。

from nltk.corpus import treebank as tb sentences_trained = treebank.tagged_sents()[:4000] uni_tagger = UnigramTagger(sentences_trained) sent_tested = treebank.tagged_sents()[3000:] print("Test score : ",uni_tagger.evaluate(sent_tested))

输出

Test score :  0.96

在上面的代码示例中,unigram 标记器经过训练和 4000 个句子,然后在最后 1000 个句子上进行评估。

平滑技术

在许多情况下,我们需要在NLP中构建统计模型,例如,可以根据训练数据或句子的自动完成来预测下一个单词。在如此多的单词组合或可能性的宇宙中,获得最准确的单词预测是必不可少的。在这种情况下,可以使用平滑。平滑是一种调整训练模型中概率的方法,以便它可以更准确地预测单词,甚至预测训练语料库中不存在的适当单词。

平滑的类型

拉普拉斯平滑

它也被称为加 1 一平滑,我们在分母中的字数上加 1,这样我们就不会产生 0 值或除以 0 条件

例如

Problaplace (wi | w(i-1)) = (count(wi w(i-1)) +1 ) / (count(w(i-1)) + N) N = total words in the training corpus Prob("He likes coffee") = Prob( I | <S>)* Prob( likes | I)* Prob( coffee | likes)* Prob(<E> | coffee) = ((1+1) / (4+6))   *  ((1+1) / (1+8))  *  ((0+1) / (1+5))  *  ((1+1) / (4+8)) = 0.00123

退避和插值

它涉及两个步骤

退库流程

  • 我们从 n-gram 开始,

  • 如果观察不充分,我们会检查 n-1 克

  • 如果我们有足够的观察,我们使用 n-2 克

插值过程

  • 我们使用不同 n 元语法模型的合并

例如,考虑到他去的句子xxx,我们可以说他去的三元语法已经出现过一次,如果单词是to,他去的单词的概率是1,对于所有其他单词都是0。

结论

UnigramTagger是一个有用的NLTK工具,用于训练一个标记器,该标记器可以仅使用单个单词作为上下文来确定句子的词性。UnigramTagger 在 NLTK 工具包中可用,该工具包使用 Ngarm Tagger a sits 父类。


本站发布的内容若侵犯到您的权益,请邮件联系站长删除,我们将及时处理!


从您进入本站开始,已表示您已同意接受本站【免责声明】中的一切条款!


本站大部分下载资源收集于网络,不保证其完整性以及安全性,请下载后自行研究。


本站资源仅供学习和交流使用,版权归原作者所有,请勿商业运营、违法使用和传播!请在下载后24小时之内自觉删除。


若作商业用途,请购买正版,由于未及时购买和付费发生的侵权行为,使用者自行承担,概与本站无关。


本文链接:https://www.10zhan.com/biancheng/10683.html

标签: Python
分享给朋友:

“在 NLP 中训练 Unigram 标记器” 的相关文章

【说站】laravel实现自定义404页面并给页面传值

【说站】laravel实现自定义404页面并给页面传值

以 laravel5.8 为例,虽然有自带的404页面,但太简单,我们更希望能自定义404页面,将用户留在站点。实现的方式很简单,将自定义的视图文件命名为 404.blade.php,并放到 reso...

【说站】Thymeleaf报错Error resolving template “XXX”

【说站】Thymeleaf报错Error resolving template “XXX”

修改了一下开源项目的目录结构访问突然报错Error resolving template “XXX”可能原因有如下三种:第一种可能:原因:在使用springboot的过程中,如果使用thymeleaf...

【说站】用一句话就可以去除宝塔面板操作上的二次验证

【说站】用一句话就可以去除宝塔面板操作上的二次验证

用过宝塔的朋友应该都会发现,现在宝塔面板有些鸡肋的功能,删除文件、删除数据库、删除站点等操作都需要做计算题!不仅加了几秒的延时等待,还无法跳过!这时候就会有朋友在想,如何去除宝塔面板的二次验证,此篇文...

【说站】vagrant实现linux虚拟机的安装并配置网络

【说站】vagrant实现linux虚拟机的安装并配置网络

一、VirtualBox的下载和安装1、下载VirtualBox官网下载:https://www.virtualbox.org/wiki/Downloads我的电脑是Windows的,所以下载Wind...

【说站】Java从resources读取文件内容的方法有哪些

【说站】Java从resources读取文件内容的方法有哪些

本文主要介绍的是java读取resource目录下文件的方法,比如这是你的src目录的结构├── main│ ├── java│ │ └── ...

【说站】linux中redis如何以redis用户重启?

【说站】linux中redis如何以redis用户重启?

通过上图我们可以看到,目前状态是已经以 redis 用户启动着,我想修改下 redis 的密码,然后怎么以 redis 用户重启呢?redis 是 nologin 用户,不能通过 su redis 切...