1.降维(dimensionality reduction),降维在哪里使用,降维的好处是什么?

2.请问哪位大侠知道什么叫维度灾难吗?

3.dimensionality reduction是什么意思

4.尺度的汉语词汇

5.优化算法中的维数灾问题是什么意思

6.论文解读:Policy Distillation and Value Matching in Multiagent Reinforcement Learning

7.急求英语翻译,高手进,好的追加悬赏!

此篇读书笔记对应于《 Ordinary Differential Equations 》(Arnold,3rd)第一章(Basic Concepts)第一节——Phase Spaces.

常微分方程与生态学有什么关联?从历史的角度看, 种群动态是生态学真正关心的问题 。从Gilbert White于1789年提出人类史上第一个生态学问题,时至今日,生态学理论一直以种群动态为根基。它涌现出所谓生物多样性、空间分布格局、种间互作,也是功能性状、物候等话题在应用生态学中的归宿。时至今日,真正成熟应用的生态学理论,基本上也是Malthus定律及其衍生。

而常微分方程是这些理论的数学基础。

「常微分方程(ordinary differential equation)」 是用于研究一切 「确定性(determinacy)」 、 「有限维(finite-dimensionality)」 、 「可微(differentiability)」 的 「演化过程(evolution process)」 的一套工具。

这里的演化过程,不是狭义上的生物进化,而是泛指一切随着时间推进,系统 「状态(state)」 发生变化的过程,或者说系统发生 「运动(motion)」 的过程。

要描述一个系统的运动,需要引入下列概念:

常微分方程要解决的根本问题是用相速矢量研究系统的运动情况。而相空间、 矢量场(direction field) 的引入将研究演化过程简化为研究几何问题。

记 维相空间为 ,时间轴为 ,相点 ,相速矢量 ,则该系统的 「自主微分方程(autonomous differential equation)」 为:

所谓自主(autonomous),是指等式右边与时间 无关。该微分方程的 「解(solution)」 是由时间轴到相空间的一个映射 。当 满足 时,称 满足初始条件 。将 和 组合起来(即 ,在数学上称为 直积(direct product) )可以描述系统在某一时刻下在相空间的位置。其中点 所属的空间被称为 「扩充相空间(extended phase space)」 。

从一阶微分的角度理解,该微分方程实际上是将 映射到 、 、...、 。

1798年Malthus提出的人口理论被不少生态学家认为是生态学第一定律。其在生态学中的地位可与牛顿力学定律在物理学中的地位相媲美。Malthus指出,一切生物在“不受外力”的影响下,都以恒定的速率 增长。用微分方程可表达为:

其中种群个体数 ,故相空间是一维 正半轴。其相速矢量场如图所示:

该方程可直接用定积分(或不定积分)求解,结果为:

这是一个指数曲线, 只有 时, 。而当 为有限值时, 无法达到无穷大 。这种增长称为 「自然繁殖(normal reproduction)」 。

然而,只要稍改动微分方程,情况就不会如此。例如,对于某个有性繁殖的、性比率为1的种群,其增长率正比于雌性个体和雄性个体的数量,则该种群个体数变化的相速度可表示为:

其积分曲线为:

这是 「双曲线(hyperbola)」 的一支。 当 接近有限值 时,种群个体数就已经达到了无穷大 。

由于有限,当种群个体数过大时竞争激烈,故种群增长率会有所下降。所以 不是一个恒值,而是关于 的函数:

函数 应当是在 范围内随 增加而单调递减的函数。但其具体形式我们无从得知。记 时种群增长率 。根据麦克劳林展开式:

即, 当 足够小时,任何光滑函数可用线性函数作近似 。因此,

当 时,其相速矢量场如图所示:

由图可知种群个体数由一个 稳定平衡点(stable?equilibrium, ) 和 不稳定平衡点 ( )。

求解微分方程,可得:

由积分曲线可知 时种群个体数趋近于1。求解 ,得 ,即 。故当 ,该函数二阶导数小于0,为凹函数; 时,函数二阶导数大于0,为凸函数。在 时,种群具有最大增长率。

现进一步设,单位时间内以固定量伐种群。设 ,则种群动态可表示为:

其中 被称为 限额(quota) 。用相速矢量场的特点分析(如下图),可知,只有当 时,种群才有机会达到稳定点。

设单位时间内的伐量不为定额,而与种群个体数呈正比,则:

以类似的方式(如下图)分析可得,只有 时,种群才有机会达到平衡。

Lotka(1910)和Volterra(1926)分别提出了捕食者–猎物系统的种群动态模型,称为Lotka–Volterra模型。该模型设:捕食者、猎物相遇的几率与双方的种群个体数成正比;捕食者捕食猎物的频次与相遇频次成正比;捕食者种群增长率与捕食猎物的频次成正比;捕食者以恒定的速率死亡。从而:

用相速矢量场研究该系统的动态,如下图所示。

但从这张图无法得知某个相点运动一周后是否会回到原来的位置。可能有以下几种情况:

其中,Φ(A)代表 「第一返回函数(first return function)」 ,即相点运动一周后的位置关于相点原位置的的函数。在情况A中,相点逐渐运动到平衡点;情况B中,系统逐渐崩溃;情况C和D中,相点的最终运动轨迹为 有限环(limit cycle) 。下方四张图对Φ(A)的呈现形式称为 「Lamerey楼梯(Lamerey staircase)」 。由此可知,针对不同的起始点A,Φ'(A)对种群调控起到了很大的作用。

根据牛顿第一定律,任何物体不受外力作用时,其加速度为0,即 。可用 和 两个坐标轴将该式拆解:

其相速矢量场如下图所示:

其中,位于 直线上的相点为不稳定平衡点,在物理上又称为中性平衡点(neutral equilibrium)。

而对于自由落体运动 ,则可分解为:

对于弹簧振子,质点的加速度与位移成比例,即 ,可分解为:

其相速矢量场如图所示:

当 时,可以发现相速矢量 与径矢量 的长度(后者即相点到原点的距离)相等,且两个矢量相互垂直。因而相点在 上作角速度为1的圆周运动。设 ,则该微分方程的积分曲线为:

当 时,其实相当于把 轴进行伸缩变换,那么轨迹也就自然从圆变为椭圆。如果 (当然弹簧振子不会这样),相速矢量场有点像双曲线但又不完全是,因为在(0,0)点处有定义。当考虑二维简谐运动 时,做法类似,只不过此时的运动轨迹成为两个圆 、 ,其运动的角速度均为1。

对于单摆(如下图),根据转动定律,可知:

其中, 为转动惯量(moment of interia)。

故单摆的运动可视为 ,分解可得:

当 很小时, ,单摆运动简化为简谐振子。

常微分方程是一种研究演化过程的工具。

常微分方程定义的一套概念体系,将研究演化过程这一问题简化为研究相速矢量场和积分曲线的特征,即一个几何问题。

? 是最简单的常微分方程,但它同时称为了物理学、生态学第一定律的核心。

研究常微分方程的方法有:(1)从 相速矢量场 的几何特征入手,从而对系统动态有感性的认识;(2)找出 相速矢量 、径矢量的特殊几何特征,或分析其大小变化,推测相位曲线的形状;(3)求积分,获取 积分曲线 ,并研究其几何特征,最终对系统动态作出预测。

下一篇: 读书笔记:常微分方程(二)——Lotka–Volterra模型

降维(dimensionality reduction),降维在哪里使用,降维的好处是什么?

“单向度”有两种意思,一是在横向上只有一个方向;一是在纵向上只有一个深度,即扁平化、无反抗等。

单向度的人即所谓的丧失否定、批判和超越能力的人。这样的人不仅不再有能力去追求,甚至也不再有能力去想象与现实生活不同的另一种生活。

起源

单向度的人这一概念源于法兰克福学派马尔库塞的力作《单向度的人:发达工业社会意识形态研究》。

马尔库塞认为,发达工业社会成功地压制了人们心中的否定性、批判性、超越性的向度,使这个社会成为单向度的社会,而生活在其中的人就成了单向度的人,这种人丧失了自由和创造力,不再想像或追求与现实生活不同的另一种生活。

请问哪位大侠知道什么叫维度灾难吗?

降维是通过获得一组基本上是重要特征的主变量来减少所考虑的特征变量的过程。

特征的重要性取决于特征变量对数据信息表示的贡献程度,以及决定使用哪种技术。决定使用哪种技术取决于试错和偏好。通常从线性技术开始,当结果表明拟合不足时,就转向非线性技术。

数据集降维的好处可以是:

( 1 )减少所需的存储空间。

( 2 )加快计算速度(例如在机器学习算法中),更少的维数意味着更少的计算,并且更少的维数可以允许使用不适合大量维数的算法。

?( 3 )去除冗余特征,例如在以平方米和平方英里存储地形尺寸方面没有意义(可能数据收集有缺陷)。

?( 4 )将数据的维数降低到2D或3D可以允许我们绘制和可视化它,可能观察模式,给我们提供直观感受。

?( 5 )太多的特征或太复杂的模型可以导致过拟合。

dimensionality reduction是什么意思

维数灾难(英语:curse of dimensionality,又名维度的詛咒)是一个最早由理查德·贝尔曼(Richard E. Bellman)在考虑动态优化问题时首次提出来的术语[1][2],用来描述当(数学)空间维度增加时,分析和组织高维空间(通常有成百上千维),因体积指数增加而遇到各种问题场景。这样的难题在低维空间中不会遇到,如物理空间通常只用三维来建模。

举例来说,100个平均分布的点能把一个单位区间以每个点距离不超过0.01样;而当维度增加到10后,如果以相邻点距离不超过0.01小方格样一单位超正方体,则需要1020 个样点:所以,这个10维的超正方体也可以说是比单位区间大1018倍。(这个是Richard Bellman所举的例子)

在很多领域中,如样、组合数学、机器学习和数据挖掘都有提及到这个名字的现象。这些问题的共同特色是当维数提高时,空间的体积提高太快,因而可用数据变得很稀疏。稀疏性对于任何要求有统计学意义的方法而言都是一个问题,为了获得在统计学上正确并且有可靠的结果,用来支撑这一结果所需要的数据量通常随着维数的提高而呈指数级增长。而且,在组织和搜索数据时也有赖于检测对象区域,这些区域中的对象通过相似度属性而形成分组。然而在高维空间中,所有的数据都很稀疏,从很多角度看都不相似,因而平常使用的数据组织策略变得极其低效。

“维数灾难”通常是用来作为不要处理高维数据的无力借口。然而,学术界一直都对其有兴趣,而且在继续研究。另一方面,也由于本征维度的存在,其概念是指任意低维数据空间可简单地通过增加空余(如复制)或随机维将其转换至更高维空间中,相反地,许多高维空间中的数据集也可削减至低维空间数据,而不必丢失重要信息。这一点也通过众多降维方法的有效性反映出来,如应用广泛的主成分分析方法。针对距离函数和最近邻搜索,当前的研究也表明除非其中存在太多不相关的维度,带有维数灾难特色的数据集依然可以处理,因为相关维度实际上可使得许多问题(如聚类分析)变得更加容易。

尺度的汉语词汇

dimensionality reduction

降维

reduction[英][r?d?k?n][美][r?d?k?n]

n.减少; 降低; [数学]约简; [摄影术]减薄;

复数:reductions

易混淆单词:Reduction

例句:

1.

De reduction has become a hot political issue.

债务削减已成为一个政治热点。

2.

Politics within the can help or hinder deficit reduction.

的内部政治可以促进也可以妨碍赤字的减少。

优化算法中的维数灾问题是什么意思

词目:尺度

拼音:chǐ dù

词性:名词 [yardstick;measure;scale] 准绳;衡量长度的定制

尺度有则

1、尺寸;尺码:多大尺度无字碑之高广厚,尺度一如琅邪台碑。

2、处事或看待事物的标准。 dimension; scale; [$n.] gage,scale; 1.the standard of judgment; a criterion (of); a yardstick 2.the scale; a gauge; admeasurement; criterion; dimensionality; dimensions; gage; meassure; measure; module; scale/yardstick; scales; yardstick

比较度量家具整体与局部、局部与局部、家具与人体、家具与室内空间以及家具部位空间与生活用品的关系的尺寸谓之尺度。 1. 规定的限度。

《六韬·农器》:“丈夫治田有亩数,妇人织紝有尺度。”

2. 引申为准则、法度。

唐 李涉 《题清溪鬼谷先生旧居》诗:“常闻先生教,指示 秦 仪 路。二子才不同,逞词过尺度。” 宋苏洵 《与梅圣俞书》:“惟其平生不能区区附合有司之尺度,是以至此穷困。” 郭澄清 《大刀记》第十九章:“衡量一个人的能力大小,不能用年龄做为尺度。”

3. 指计量长度的定制。

《宋书·律历志上》:“ 勗 又以 魏 杜夔 所制律吕,检校太乐、总章、鼓吹八音,与律乖错,始知 后汉 至 魏 ,尺度渐长於古四分有馀。”《宋史·律历志一》:“ 乾德 中,又禁民间造者。由是尺度之制尽复古焉。” 明 王鏊 《震泽长语·音律》:“臣依 周 法,以秬黍校定尺度,长九寸,虚径三分,为黄钟之管。”

4. 犹尺寸,尺码。

唐 杜甫 《桃竹杖引赠章留后》:“江心磻石生桃竹,苍波喷浸尺度足。” 清 阮元 《小沧浪笔谈》卷三:“ 元 又登 岱 顶见无字碑,碑之高广厚,尺度一如 琅邪台 碑。”

论文解读:Policy Distillation and Value Matching in Multiagent Reinforcement Learning

维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。维数灾难在很多学科中都可以碰到,比如动态规划,模式识别等

急求英语翻译,高手进,好的追加悬赏!

论文题目: Policy Distillation and Value Matching in Multiagent Reinforcement Learning

论文链接 : s://arxiv.org/pdf/1903.06592

研究对象 :多智能体协作系统

研究动机 :现有的关于多智能体强化学习(multi-agent reinforcement learning, MARL)的工作,主要通过集中式评价机制(centralized critic)或智能体之间的通信来共享信息,从而提升学习效果。但是这些工作通常不会研究智能体之间如何通过信息共享来解决维度灾难(the curse of dimensionality)的问题。

设 :多智能体问题可以被分解成一个多任务问题,这样每个智能体可以只在整体状态空间的子集中进行搜索,而不用在整个状态空间中搜索。这种设的好处是可以大大缩小系统的搜索空间,从而加快学习速度。

主要工作 :

基于以上设,通过蒸馏(distillation)和值匹配(value-matching)的方法将同质智能体的知识进行整合,提出一种新的multi-agent actor-critic算法。

所谓同质多智能体,就是状态空间和动作空间都是一样的智能体,比如无人机和无人机组成的就是同质智能体,无人机和无人车组成的就是异质多智能体。

问题背景 :

多智能体系统中,智能体独立地在同一个环境中行动,但是同时彼此也会影响到对方的决策。因此,如果直接将单智能体强化学习技术应用到多智能体中,也就是所谓的independent learning,学习过程将会不稳定。因为传统的单智能体强化学习设外部环境的变化是稳定的,而在多智能体系统中,任何一个智能体策略的改变,都会影响到其它智能体的学习。为此,研究人员常常用一种集中式训练和分布式执行的架构来实现MARL。但是这就会存在一个问题,就是当智能体的数量增大的时候,整个系统的状态空间和动作空间会指数增长,智能体的搜索空间也变得特别大。

对每个智能体来说,有的状态对最优策略的求解并不起作用,因此它并不需要对整个状态空间进行搜索。一个高效率的搜索可以帮助智能体缩短训练时间,但是现有的方法却没有一个通用的方法来解决这样的问题,这也是现在MARL研究中智能体数量受到限制的原因之一。

解决思路:

在训练中,共享智能体之间的经验数据等信息,通过策略蒸馏(Policy distillation)的思路充分利用并学习新的策略。

关于policy distillation,一开始提出来是为了解决单智能体-多任务强化(mutli-task reinforcement learning, MTRL)问题,论文链接: s://arxiv.org/pdf/1511.06295 。因此本文先将单任务-MARL问题看成单智能体-MTRL问题,这样就可以利用policy distillation方法来寻找最优策略了。

但是怎么理解这种设呢?比如三个智能体A、B、C,任务是分别以最短的时间到达指定位置L1、L2、L3,这是一个单任务-MARL问题。现在将这个问题看成一个智能体A,同时具备以最短的时间到达L1、L2、L3的能力,这就是一个单智能体-MTRL问题了。

算法细节:

由于要用到policy distillation,所以本文用的是随机策略(stochastic policy)。对于连续动作问题,作者将Soft Actor-Critic算法由单智能体扩展到多智能体。同时还要将actor的输出利用softmax函数转换为概率分布的形式。

Policy Distillation:?

蒸馏策略的损失函数为

? (1)

注意(1)式中的 都是概率分布,并不是策略本身。从replay buffer中只样变量 ,而不样 。这是因为replay buffer中的 可能是次优的,而通过这种方式直接从 中遍历动作空间中的所有动作,更容易找到最优动作。每次蒸馏之后,所有的智能体策略都更新为 (硬更新)。这样,智能体 和其它智能体就实现了信息的共享。

策略蒸馏的好处是,即使智能体 有的状态没被样过,但是其它智能体样过,那么这个状态的信息就可以通过其它智能体策略的蒸馏间接地传递到智能体 中。

Value Matching:?

光有蒸馏策略对策略进行更新还是不够的,如果策略学习加入了蒸馏环节,而值函数的学习用传统的方法,显然会产生分歧。因此,也需要对值函数进行调整。

需要指出的是,对于合作任务的同质多智能体,由于其状态空间和动作空间一致,同时共享一个reward,所以它们的最佳策略是相同的。基于这个前提,作者提出value matching的方法来缩小搜索空间。

传统的集中式训练,其值函数的输入为所有智能体的观测和动作,如 和 。并且这些输入的顺序一般是固定的,例如对状态值函数来说,就会满足 。但是根据本文的设定,即多智能体是同质的,而且共享一个reward函数,因此值函数输入的顺序是不影响输出的具体值的。

例如对于上图中的两个智能体,设状态A( )的值函数已经学出来了为 ;状态B是状态A的对称形式, ,根据同质智能体合作任务的设,这两个状态的值函数应该相等,即 。扩展到具有 个智能体的情况下,满足

(2)

其中 表示 所有顺序的排列组成的集合。这样,一旦某个状态的值函数学到了,以此为监督信息,训练value-matching的评价网络,则对应的不同组合的对称状态值就都有了。Policy的Distillation和critic的value-matching,合起来就是DVM。

为了训练这个新的值函数(蒸馏值函数),本文使用的是均方误差损失函数(MSE),

. ? (3)

其中, 表示matched value function(匹配值函数)的参数。

和蒸馏策略类似,匹配值函数不需要遍历所有的状态就能表征状态空间中的知识。本文还指出,很多MARL方法使用Q值函数来作为critic,以上的方法同样适用,只需要保证状态和动作是一致的就行。

Multi-agent Soft Actor-Critic (SAC):

Actor-Critic(AC)大家都很熟悉,那什么是Soft Actor-Critic呢?

SAC最早出现在ICML2018中,论文链接: ://proceedings.mlr.press/v80/haarnoja18b/haarnoja18b.pdf

SAC不仅的优化目标不仅是最大化期望累积奖励,还要最大化信息熵(entropy),这样有利于平衡智能体的学习和探索。即使动作的选择足够随机,也能保证任务的学习。SAC的actor输出的是随机变量,这也是本文为什么选择使用SAC框架的原因。接着,作者SAC扩展到多智能体,提出MA-SAC,同时加入前面提到的DVM。

作者在文章中指出,这里使用Policy Distillation方法来训练策略网络,因此其actor网络输出的都是概率分布。对于MADDPG这样的确定性策略的算法,由于策略网络输出的是连续的动作值,因此无法计算KL损失。

本文中对于连续动作控制问题,策略函数输出的是一定均值和方差的高斯分布,然后从这个高斯分布中样得到一个连续的动作值。

本文提出的算法流程如下:

实验环境:

总结:

本文提出的DVM方法,主要用于同质协作多智能体之间的信息共享和传递,通过另外学习一个单独的蒸馏策略和蒸馏值函数,将多智能体单任务问题看成单智能体多任务问题。作者认为这种方法可以有效降低智能体的状态搜索空间,从而加快学习速度。即使一些状态某个智能体没遇到过,只要其它智能体遇到过就行。蒸馏策略可以将其它智能体学习到的知识整合到一个策略中,从而实现知识在智能体之间的共享。而对于连续动作无法计算KL损失的问题,作者使用MA-SAC框架实现MARL,从而继续利用DVM来学习。

Despite all these production practices, restrictions,

and controls, the original procedures involved in

machine design, analysis, and simulation remain

largely unchanged, as outlined by Younkin [2].

尽管这些生产实践,限制和控制,和机器设计、分析以及模仿有关的原始程序大部分没有改变,就如Younkin强调的那样。

These processes, upon which the basic performance of

machinery systems depend, are lacking in rigour

compared to subsequent, mandatory, manufacturing

regulations that were imposed to improve machining

standards, consistency, and volume production targets.

这些机器系统的基本操作依靠的程序,相比起后续的、强制的生产规程来说,却缺少严谨性,而这些生产规程是用于改进加工标准和加工一致性以及批量生产的

Essentially, machine tool design generally employs

pointwise, lumped analysis methods.

实际上,机床设计一般都用逐点计算的,集中分析的方法。

This roach does not recognize spatial dispersion, irrespective

of the machine dimensions, mass, inertia, andstiffness properties.

这个方法不能辨认空间散布,并且和机器的尺寸,机器重量和惯性以及刚度这些特征没有关系

For analytical convenience, 为了分析的方便

all these characteristics are assumed to be located at

a single, undefined point in the space–time continuum,

as in reference [3].所有的这些特性都会被设成是位于空间中的一个独一的、未定义的点上-----如文献所说的,我们把它称为时间节。

Clearly, this assumption becomes increasingly

difficult to sustain with expanding machine dimensionality,

slenderness ratios,明显地,当机器的维度和长细比越来越大的时候,这个设会变得越来越困难。

(长细比的解释:://baike.baidu/view/1625329.htm)