计算机世界网-数字化真实世界──CGF行为建模问题

数字化真实世界──CGF行为建模问题

刘秀罗刘宝宏

01-5-17 下午 02:42:01

三、基于Agent的建模框架

图基于Agent的建模框架

附图给出了基于Agent的建模框架。从图中可以看出，该框架一般包含以下三个阶段：感知部分，用来接受外界的信息；认知处理部分，包括形势评估、决策制定、规划、学习等；行为输出部分，输出行为并对外界环境加以影响。在认知处理部分，还需要与工作存储器（存放CGF对象获取的当前信息）、长期存储器（存放CGF对象已有的知识或任务等）进行交互。

其中，行为建模就是指对图中认知处理所包含的几个部分进行建模，下面我们将对每一部分所涉及的建模技术进行讨论。

1．实现形势评估模型的常见技术

认知过程中的形势评估是对当前所处形势的估计以及对未来形势的预测，它的实现技术主要包括：

黑板系统　在黑板系统中，当前的状态被分解成不同的部分，并添加到黑板上的适当位置，利用这些信息就可以对当前的形势作出分析，并对未来的发展进行预测，所得到的分析和预测结果也添加到黑板上。

专家系统　即产生式规则系统，它主要包含三个部分：规则库、事实库和推理引擎，在实际进行形势评估时，它遵循“匹配──选择──应用”这样一个循环机制。目前，比较成熟的仿真系统的形势评估模型大多采用这一技术。

基于范例的推理机制　它的工作原理是系统的知识用一组范例库来表示，每一个范例都用一组特征来表示，知识库中的所有范例具有同样的数据结构，这样，当新的形势（目标范例）出现时，便可将它与范例库中的所有范例进行比较，再依据一定的相似性度量原则，找出与其最接近的范例，来实现形势评估的目的。

贝页斯信任网技术　这一技术的理论依据是贝页斯定理，当已知状态S的先验概率，且观察到S的相关事件E，则可计算出S的后验概率。它能够适用的情况是系统的推理过程。

2．实现决策制定的常见技术

在决策制定的实现技术中，上述形势评估的一些技术，如专家系统、贝页斯信任网也是可以采用的。以下将重点讨论基于效用理论的决策，状态的效用值是用效用函数进行计算的，它是状态的非线性函数。在人工智能中，决策理论可以看做是效用理论和概率论的结合。

基本的效用理论　假设在当前的状态下，采用的决策方案为Ai，产生的可能状态为Sj，每一状态的效用值是U(Sj)，概率是Pj，则该决策的期望效用值E(Ai)=∑Pj U(Sj) ，期望效用值最大的方案即为当前的最佳决策。

多属性效用理论　当影响效用值的因素不止一个时，就需要采用适当的方法来计算效用值，在各属性满足互斥条件，即各自产生的效用值互相独立时，可以采用加法的形式计算效用值。

随机效用模型　上面所介绍的两种效用理论，往往体现不出决策的灵活性和可变性，随机效用模型通过引入相关的随机变量来计算效用值，从而能够实现更为真实的决策效果。

3．实现规划模型的常见技术

规划在作战仿真中，就是部队行动方案的制定，其模型的实现技术主要包含以下四种：

产生式规则或决策表方法　这是规划模型采用最多的技术，其中的规则和决策表都是建立在作战条例的基础之上的，不足之处是对于规则库或决策表中不存在的情况无法进行处理。

组合式搜索或遗传算法　这一方法一般用作一些规划决策模型的辅助手段，能够产生完整的规划方案，而且在遇到新的情况下，可以规划出新的方案，缺点是进行复杂的规划时计算代价太高，无法用于实时的行为建模当中。

采用规划模板或基于范例的推理　规划模板在与作战条例保持一致的前提下，可以用来将部队的作战任务规划成更为详细的行动计划。基于范例的推理机制前面已经介绍过，这两种方法采用的都是经验知识，符合人的行为特点，但其灵活性和适应性较差。

基于仿真的规划方法　这一方法并不产生规划结果，它主要依靠对可供选择的规划方案进行快速仿真，来实现对这些规划方案的快速评估、修改、细化以及优化等，因此它更多地用于对具有不同行动方案的军事演习进行建模和评估。

4．实现学习模型的常见技术

学习过程是认知处理过程的重要组成部分，但同时在CGF的行为建模中，它也是最难实现的一个部分。目前的大多数仿真系统中都还不具备学习这一功能，即使有，也只是在局部进行了实现。今后学习模型的建立不仅是CGF中的行为建模，也是整个人工智能领域研究的重点。这里，我们将对一些常见的实现技术进行介绍。

基于规则的模型　它的工作原理是当一个新的情况或者某一冲突出现时，现有的规则无法解决，这时就启动一问题求解过程来进行求解，这一新的情况和问题求解的结果便构成一个新的规则，将其添加到规则库中，即完成了学习过程。由于这种方法在启动一规则时，需要对触发状态进行精确的匹配，因此在有噪声影响时，灵活性较差。

基于范例的模型　基于范例的学习原理非常简单，但它却逼真地再现了人的行为模型的学习过程，在技巧学习、识别记忆以及分类学习中应用非常成功。它的工作原理是通过对过去求解问题的经验（即范例）的存储，当出现新问题时，利用它与已知范例的相似性进行求解、更新及存储等。

神经网络技术　神经网络模型是一种基于人脑工作机制的模型，它一般由几层神经元组成，神经元之间相互连接。在进行学习时，首先要根据问题的需要确定网络的结构和神经元的响应函数，然后采用一定的数学规则，利用输入样本后的输出来调整网络的连接权值。目前这一方法是学习领域研究的重点。

其他模型　除去以上所介绍的学习模型外，也还有一些模型经证明是非常有效的。如模拟退火方法，主要用于在高维参数空间中寻找全局最小或最大点;遗传编程算法，依据遗传学中的变异或进化原理，在旧的规则基础上来构造新的规则，实现学习的目的。

5．行为建模中的多Agent实现技术

上面所介绍的是基于单Agent的建模问题，对于解决系统结构不是很复杂的模型能够收到比较好的效果，但当模型中包含了C3I部分以及需要在不同的Agent之间实现协同工作时，单纯依靠上述方法往往无法逼真地再现系统的特性，而多Agent技术的发展为解决这一问题提供了有效的途径，多Agent理论是在分布式人工智能技术的基础之上发展起来的，目前已经成为继面向对象方法之后出现的又一种进行系统分析与设计的思想方法与工具。

在多Agent系统理论中，关于多Agent之间的协调合作及共同适应（Coadapted）问题是处于核心的课题。它研究如何将多个Agent组织成一个群体并使各个Agent有效地进行协调合作，从而产生共同适应行为，达到从总体上解决问题的能力。

多Agent协调合作问题目前已经成为国内外分布式人工智能技术研究的热点，发展了许多理论方法，根据其流派，大致可以分为以下三种：

● 基于符号推理系统的协调方法；

● 基于行为主义的协调方法；

● 基于进化机制的协调方法。

四、结束语

行为建模作为计算机生成兵力建模的一个核心部分，它涉及到人工智能、神经网络、模糊系统理论、进化计算等软计算领域的知识，同时又涵盖了社会学、心理学等领域，是一个多学科交叉的研究方向。目前，国内在这方面的研究工作也有了一定的发展，但同国外相比，差距比较明显，尤其是在应用领域。

（网页编辑：黄楚川）