我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:刘伯温论坛 > 二元语法 >

【数据科学实战系列】Twitter情感分析项目之【5】

归档日期:04-13       文本归类:二元语法      文章编辑:爱尚语录

  原标题:【数据科学实战系列】Twitter情感分析项目之【5】 图片源于网络    《Twitter

  《Twitter情感分析项目》的原作者为Ricky Kim,该项目系列共11篇文章,发布于领英、Towards Data Science等作者个人主页。本系列文章由中国人民大学刘岩和朝乐门负责翻译、整理和校对之后发布。     本文为Python实战之Twitter情感分析项目系列的第五篇,主要介绍基于Tfidf vectorizer进行特征抽取,以及模型评估、词法方面的内容。

  上篇文章中已经涉及到count vectorizer中的词频,但是此处需要进一步计算相对频率。比如语料库中有两条文本数据:

  进一步,需要计算IDF(Inverse Document Frequency),这衡量一个词在区分不同文本上的重要性。公式如下:

  可以看出,单词“I”在两条文本中的出现频次相同,而且TFIDF值得分是0,表明这个词汇不包含可以区别这两条文本的信息。

  以下将实例化TFIDF Vectorizer,并将转换后的数据拟合到逻辑回归模型中,并检验不同特征值下的准确性。

  以下延续上篇文章内容,将计量向量化模型替换为Tfidf Vectorizer,重新将把词袋模型扩展到三元语法模型,进而评估其如何影响模型的表现。

  以上通过逻辑回归模型得到的最好结果是,基于三元语法模型,使用 TFIDF vectorizer 抽取100000个特征。因此,可以由此拟合各种不同的模型,并比较它们的验证结果,然后建立一个包含前五个模型的集成分类器。

  考虑到数据规模以及模型的可扩展性,此处并没有选择计算消耗大的模型,比如KNN、随机森林模型等。在尝试其他不同的文本数据向量化以后,将再进行模型的微调。

  以上演示的是机器学习中文本分类的方法,试图通过在标记的数据集上训练分类器来解决问题。情感分析的另一种著名方法是词汇方法。在词汇方法中,情感的定义是基于对单个词汇/短语的分析,在这其中情绪词典经常被使用:在文本中搜索词典中的情绪词汇,计算它们的情感权重,并应用一些聚合权重函数。

  在本系列的第三篇文章中,已经计算过“positive rate CDF”和 “positive frequency percent CDF”的调和平均值,它们可以较好地代表语料集中的正向和负向词汇。如果通过它们可以过滤出每个类别中的关键词汇,那么也可以用于词法中的预测。

  因此,此处使用已经计算过的调和平均值构造一个简单的预测器。以下进行词频计算,并得到pos_normcdf_hmean值,此处只从训练数据集中计算词频。

  一般来说,使用词法进行分类需要纳入多方面的计算变量,但此处只尝试构建简单的模型。

  根据pos_hmean的平均值,此处将阈值设置为0.56:超过0.56,预测结果为正向类别,反之为负向类别。而且以上模型的准确性为75.95%,虽然低于逻辑回归模型,但是比ZeroR 和TextBlob的基线都要高。考虑到该模型只纳入一个指标,而且只在训练数据集上进行计算,模型的性能还不错。

本文链接:http://19721112.com/eryuanyufa/14.html