英特尔Nervana发布强化学习库Coach：支持多种价值与策略优化算法

来源： SDK.cn 类型：技术文章发布：2017-10-23 11:01:46

本文经机器之心（微信公众号：almosthuman2014）授权转载，禁止二次转载。

项目地址：http://coach.nervanasys.com
开源地址：https://github.com/NervanaSystems/coach

什么是 Coach

动机

开发 Coach 的动机是，通过掌控多核 CPU 处理的能力来训练、评估强化学习智能体，从而获得顶尖的结果。也是为了通过模块化设计和对 API 的简洁设定，提供简化新算法开发的沙盒。

解决方案

Coach 是一个 Python 环境，以一种模块化的方式对智能体与环境之间的交互建模。有了 Coach，我们就有可能通过结合不同的模块对智能体建模了，也能在不同的环境中训练智能体。可使用的环境，让我们能在不同的实务领域测试智能体，比如机器人、自动驾驶汽车、游戏等。Coach 能够收集训练过程的统计数据，并支持高级可视化技术，从而 debug 训练的智能体。

Coach 的设计

网络的设计

每一个智能体至少有一个神经网络作为函数近似器用于选择 action。该网络是模块化设计的以便在不同的智能体中复用。它由三个主要部分组成：

输入 Embedder（Input Embedder）- 这是网络的第一个阶段，用于将输入转换为一个特征向量表示。有可能用于组合任意支持的 embedder 的多个实例，以允许输入的多种组合。

有两种主要的输入 embedder：

图像 embedder-卷积神经网络
向量 embedder-多层感知机

中间件（Middleware）- 中间件获取输入 embedder 的输出，并在其被发送到输出头之前，转化为一个不同的表示域。中间件的目标是使处理多个输入 embedder 的组合输出成为可能，并对它们进行额外的处理。它可能是一个 LSTM 或者仅仅是一个朴素的全连接层。

输出头（Output Heads）- 输出头用于预测网络的值，可能包括行动分值（action-values）、状态值（state-values）或一个策略（policy）。输入 embedder 的功能允许在同一个网络中使用多个输出头。例如，Actor Critic 智能体组合了两个输出头，一个策略头和一个状态值头。此外，输出头能根据头类型定义损失函数。