vec系列的简单介绍

本文目录一览:

文本分类特征工程概述

本质上来讲,图像压缩也就是一种特征工程。对于文本这样的非结构化数据来讲呢(图片、音频、文本、视频都是非结构化数据)? 文本分类的核心都是如何从文本中抽取出能够体现文本特点的关键特征,抓取特征到类别之间的映射。

传统机器学习方法的文本表示是高纬度高稀疏的,特征表达能力很弱,而且神经网络很不擅长对此类数据的处理;此外需要人工进行特征工程,成本很高,不能很好的满足短文本分类的需求。

文本分类的核心都是如何从文本中抽取出能够体现文本特点的关键特征,抓取特征到类别之间的映射。

我们先看一下对分类数据(categorical data)和文本数据(text data)进行特征工程处理的一般方法。分类变量(category variable)就是一组有有限值(finite number of values)的变量。如身份证号、广告类别等。

预处理:将原始语料格式化为同一格式,便于后续的统一处理。索引:将文档分解为基本处理单元,同时降低后续处理的开销。统计:词频统计,项(单词、概念)与分类的相关概率。

特征工程:特征工程是提取和选择对模型训练有用的特征的过程。这可能包括创建新的特征、选择现有特征的子集,或者对特征进行转换。例如,在文本分类任务中,我们可能需要将文本转换为词袋模型或TF-IDF向量。

word2vector为什么可以学习词的语义信息

相似词查找词的特征扩充在termweight里很有用关系挖掘序列点击数据的分析相关词挖掘用在品牌词和品牌相似词挖掘中作为系列的初始化输入特征8,模型简单,效率高,易调参。

我觉得,它的应用主要还是数据分析这一块。 Word2vec本质上是一个矩阵分解模型。 Word2evc本质它简单地指出,矩阵是每个单词和它的上下文的一组词的特征。要分解这个矩阵,只需要在隐含空间中取对应于向量的每个词。

所以,负采样策略是对模型的效果影响很大,word2vec常用的负采样策略有均匀负采样、按词频率采样等等。

word2vec将词表示成一个定长的向量,并通过上下文学习词的语义信息,使得这些向量能表达词特征、词之间关系等语义信息。

作者认为,word2vec方法预训练得到的embedding向量是普适性的,而通过特定任务的数据集的训练得到tv-embedding具有任务相关的一些信息,更有利于提升我们的模型效果。

GloVe 与word2vec,两个模型都可以根据词汇的 共现 co-occurrence 信息,将词汇编码成一个向量。两者最直观的区别在于,word2vec是 predictive 的模型,而GloVe是 count-based 的模型。

word2vec是如何得到词向量的?

one-hot可看成是1 N(N是词总数)的矩阵,与这个系数矩阵(N M, M是word2vec词向量维数)相乘之后就可以得到1 M的向量,这个向量就是这个词对应的词向量了。那么对于那个N M的矩阵,每一行就对应了每个单词的词向量。

然后得到了word2vec的词向量后,可以通过简单加权/tag加权/tf-idf加权等方式得到文档向量。这算是一种方法。当然,加权之前一般应该先干掉stop word,词聚类处理一下。

相比而言,基于共现矩阵的词向量表达方式训练速度快、充分利用了统计信息,主要用于计算词与词的相似度;而 word2vec 词向量表达方式训练速度相对较慢,并没有充分利用统计信息,但能表达出更加复杂的信息。

词向量也是参数,采用随机梯度下降法训练,训练结束后,语言模型有了,词向量也有了。

本文仅代表作者观点,不代表其他平台立场。
本文系作者授权tatn.cn发表,未经许可,不得转载。