掌握聚合最新动态了解行业最新趋势
API接口,开发服务,免费咨询服务

英特尔Nervana发布强化学习库Coach:支持多种价值与策略优化算法

本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载。

什么是 Coach

动机

开发 Coach 的动机是,通过掌控多核 CPU 处理的能力来训练、评估强化学习智能体,从而获得顶尖的结果。也是为了通过模块化设计和对 API 的简洁设定,提供简化新算法开发的沙盒。

解决方案

Coach 是一个 Python 环境,以一种模块化的方式对智能体与环境之间的交互建模。有了 Coach,我们就有可能通过结合不同的模块对智能体建模了,也能在不同的环境中训练智能体。可使用的环境,让我们能在不同的实务领域测试智能体,比如机器人、自动驾驶汽车、游戏等。Coach 能够收集训练过程的统计数据,并支持高级可视化技术,从而 debug 训练的智能体。

Coach 的设计

网络的设计


每一个智能体至少有一个神经网络作为函数近似器用于选择 action。该网络是模块化设计的以便在不同的智能体中复用。它由三个主要部分组成:

输入 Embedder(Input Embedder)- 这是网络的第一个阶段,用于将输入转换为一个特征向量表示。有可能用于组合任意支持的 embedder 的多个实例,以允许输入的多种组合。

有两种主要的输入 embedder:

  • 图像 embedder-卷积神经网络
  • 向量 embedder-多层感知机

中间件(Middleware)- 中间件获取输入 embedder 的输出,并在其被发送到输出头之前,转化为一个不同的表示域。中间件的目标是使处理多个输入 embedder 的组合输出成为可能,并对它们进行额外的处理。它可能是一个 LSTM 或者仅仅是一个朴素的全连接层。

输出头(Output Heads)- 输出头用于预测网络的值,可能包括行动分值(action-values)、状态值(state-values)或一个策略(policy)。输入 embedder 的功能允许在同一个网络中使用多个输出头。例如,Actor Critic 智能体组合了两个输出头,一个策略头和一个状态值头。此外,输出头能根据头类型定义损失函数。


保持网络拷贝同步

大多数强化学习智能体包含网络的多个拷贝。这些拷贝将作为主网络的副本并以不同的速率更新,通常在本地或者在并行的工作系统中同步。为了使拷贝的同步更容易,将这些拷贝封装为简化的 API,从而可使智能体忽略背后复杂的细节。


支持的算法

Coach 支持许多顶级的强化学习算法,主要可分为两类:价值优化与策略优化,如下图所示。


原文文档地址:http://coach.nervanasys.com

原文来自:机器之心

声明:所有来源为“聚合数据”的内容信息,未经本网许可,不得转载!如对内容有异议或投诉,请与我们联系。邮箱:marketing@think-land.com

  • 个人/企业涉诉查询

    通过企业关键词查询企业涉松详情,如裁判文书、开庭公告、执行公告、失信公告、案件流程等等。

    通过企业关键词查询企业涉松详情,如裁判文书、开庭公告、执行公告、失信公告、案件流程等等。

  • 账号黑产风险识别

    根据手机号来查询是否命中黑产风险

    根据手机号来查询是否命中黑产风险

  • IP反查域名

    IP反查域名是通过IP查询相关联的域名信息的功能,它提供IP地址历史上绑定过的域名信息。

    IP反查域名是通过IP查询相关联的域名信息的功能,它提供IP地址历史上绑定过的域名信息。

  • 人脸卫士

    结合权威身份认证的精准人脸风险查询服务,提升人脸应用及身份认证生态的安全性。人脸风险情报库,覆盖范围广、准确性高,数据权威可靠。

    结合权威身份认证的精准人脸风险查询服务,提升人脸应用及身份认证生态的安全性。人脸风险情报库,覆盖范围广、准确性高,数据权威可靠。

  • 全国城市空气质量

    全国城市和站点空气质量查询,污染物浓度及空气质量分指数、空气质量指数、首要污染物及空气质量级别、健康指引及建议采取的措施等。

    全国城市和站点空气质量查询,污染物浓度及空气质量分指数、空气质量指数、首要污染物及空气质量级别、健康指引及建议采取的措施等。

0512-88869195
数 据 驱 动 未 来
Data Drives The Future