博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
表征学习、度量学习、核学习_表征学习入门
阅读量:2524 次
发布时间:2019-05-11

本文共 2438 字,大约阅读时间需要 8 分钟。

表征学习、度量学习、核学习

尽管当今许多公司拥有大量数据,但是这些数据中的绝大多数通常都是非结构化和未标记的。 实际上,为特定业务需求适当标记的数据量通常非常小(可能甚至为零),并且获取新标记通常是一项缓慢而昂贵的工作。 结果,可以从未标记的数据中提取特征以提高数据受限任务的性能的算法非常有价值。

大多数机器学习从业者首先是通过来接触特征提取技术的。 在无监督学习中,算法尝试发现在某些(显式或隐式)假设下描述数据集“结构”的潜在特征。 例如,低秩 (其中 ) 数据矩阵划分为三个减少矩阵,最大限度地减少重构数据矩阵的平方误差。

表征学习

尽管传统的无监督学习技术将始终是机器学习流程的基础,但随着深度学习的不断成功,表示学习已成为一种特征提取的替代方法。 在表示学习中,通过在次级监督学习任务上训练神经网络,从未标记的数据中提取特征。

由于其受欢迎程度, 实际上已经成为“世界,您好!” 表征学习的应用。 在将深度学习应用于自然语言处理(NLP)任务时,该模型必须同时学习几种语言概念:

  1. 单词的含义
  2. 单词如何组合以形成概念(即语法)
  3. 概念如何与手头任务相关

例如,您可能听说过的 。 本质上,该模型经过培训可以使用油漆样例数据从RGB值生成颜色的名称。 虽然这个概念确实很整洁,但结果却让人难以理解。 该模型似乎产生了荒谬的颜色名称,并且将名称与颜色随机配对。 鉴于数据的匮乏,尝试完成的任务对于模型来说太难了。

通过为学习算法提供预训练的单词嵌入,Word2vec使此类NLP问题更易于解决,从而有效地从训练中删除了单词含义子任务。 word2vec模型是受启发的,该表明在相似上下文中发现的词通常具有相似的含义。 具体地,训练模型以在给定大小的窗口中的周围单词的情况下预测中心单词。 例如,对于句子“自然语言处理可能很困难”并且窗口大小为三,神经网络的输入/目标组合为:

[“自然”,“处理”]→“语言”

[“语言”,“可以”]→“处理”
[“处理”,“是”]→“可以”
[“可以”,“困难”]→“是”

经过足够的数据训练后,单词嵌入往往可以很好地捕获单词的含义,甚至可以进行类比,例如,“巴黎”的矢量减去“法国”的矢量再加上“意大利”的矢量非常接近到“罗马”的向量 的确,通过将word2vec向量合并到颜色名称模型中,我获得 。

客户2vec

像许多企业对企业(B2B)公司一样, 通常面临的数据挑战与企业对消费者(B2C)公司所面临的挑战截然不同。 通常,B2B公司处理的“客户”数量要比B2C同类公司少。 此外,由于多年合同的性质,B2B公司的反馈周期通常更长。 但是,像B2C公司一样,许多B2B公司拥有大量的行为数据。 代表性学习算法使Red Hat这样的B2B公司能够通过从未标记的数据中提取有意义的信息来在有限的历史背景下更好地优化业务策略。

在许多方面,Web活动数据类似于在NLP任务中找到的数据。 有术语(=特定URL),句子(=活动天数)和文档(=个人客户)。 在这种情况下,Web活动数据是的理想 。 Doc2vec是word2vec的概括,除了考虑上下文单词外,还可以在预测目标单词时考虑特定文档。 这种体系结构允许算法学习有意义的文档表示形式,在这种情况下,该表示形式对应于客户。

例如,在图1中可以看到Red Hat数据,其中每行代表一个不同的客户,每个数字代表一个不同的URL,特殊的[START]和[STOP]令牌表示一天的开始和结束。 一旦数据采用这种格式,使用两行代码训练模型(图2)。 然后,可以使用这些客户表示形式为销售活动和产品推荐形成更好的细分。

Sample web activity data used to discover Red Hat customer vectors with doc2vec

图1. Web活动数据样本,用于通过doc2vec发现Red Hat客户向量。

Training doc2vec on web activity data with gensim (top) and a function for fetching customer vectors (bottom)

图2.使用gensim(顶部)和用于获取客户向量的功能(底部)对doc2vec进行网络活动数据培训。

但是,表示学习模型比word2vec和doc2vec更加灵活。 例如, 预测美国职业棒球大联盟击球手/投手对的击球成绩可以生成高度直观的球员嵌入。

重复检测

红帽还在探索表示学习在检测重复支持内容中的适用性。 在这里,“重复”并不意味着“精确复制”,而是表示概念上是冗余的内容。 重复的内容可能会导致信息检索出现问题,并在确定支持趋势时带来挑战,因此,有效检测和删除重复的内容非常重要。

一种用于重复检测的策略是寻找相似的 (LSA)向量,但是LSA中存在一些假设和设计元素,它们限制了其有效性。 具体来说,模型

  1. 忽略单词顺序
  2. 通过最小化重构矩阵的平方误差隐式地假设
  3. 假设术语值是由潜在文档和术语向量的线性组合生成的

神经网络放宽了这些假设,这使它们成为学习文档语义表示的不错选择。

但是问题仍然在于如何使用神经网络进行重复检测而无任何标记数据。 为此,我们采用了Microsoft Research开发的 (DSSM)来完成该任务( )。 DSSM的最初动机是通过将文档和查询映射到潜在的语义空间中来提高搜索结果的相关性,并使用这些向量的余弦相似度作为相关性的代理。 本质上,该模型将文档和查询压缩到其基本概念。 为了使该模型适合重复检测,我们仅使用文档标题来代替查询,并训练了其他几乎相同的体系结构(尽管我们确实使用了内部训练的word2vec嵌入而不是单词的字母语法表示法)。 然后使用语义文档向量查找概念上相似的内容。

了解有关表征学习的更多信息

这几乎没有涉及表示学习的表面,这是机器学习研究的一个活跃领域(以及与密切相关的领域)。 要对表示学习进行广泛的技术介绍,我强烈建议Goodfellow,Bengio和Courville的新深度学习教科书中的 。 有关word2vec的更多信息,我建议在查看一下 。

文章经许可重新发布。 使用促销代码“ Redhat18”可节省9月15日在亚特兰大举行的2017年机器学习大会的享受18%的折扣。

翻译自:

表征学习、度量学习、核学习

转载地址:http://vgbzd.baihongyu.com/

你可能感兴趣的文章
用MATLAB同时作多幅图
查看>>
python中map的排序以及取出map中取最大最小值
查看>>
ROR 第一章 从零到部署--第一个程序
查看>>
<form>标签
查看>>
vue去掉地址栏# 方法
查看>>
Lambda03 方法引用、类型判断、变量引用
查看>>
was集群下基于接口分布式架构和开发经验谈
查看>>
MySQL学习——MySQL数据库概述与基础
查看>>
ES索引模板
查看>>
HDU2112 HDU Today 最短路+字符串哈希
查看>>
JPanel重绘
查看>>
图片放大器——wpf
查看>>
SCALA STEP BY STEP
查看>>
cocos2d-x学习笔记
查看>>
MySql中的变量定义
查看>>
Ruby数组的操作
查看>>
hdu1181暴搜
查看>>
解码字符串 Decode String
查看>>
json学习笔记
查看>>
工具:linux 性能监控工具-nmon
查看>>