来源:Techspot 作者:Skye Jacobs

微软展示了Quake II在名为WHAMM的实时游戏生成人工智能模型上运行。虽然游戏有完整的控制器支持,但可以预见的是,它以非常低的帧率运行。微软表示,该演示展示了该模型的潜力,而不是展示成品游戏产品。
微软的世界和人类行动面具GIT模型(WHAMM)建立在2月份推出的早期WHAM-1.6B版本之上。与前作不同,此迭代使用并行生成图像令牌的MaskGIT风格的架构引入了更快的视觉输出。摆脱了按顺序预测令牌的自动回归方法,WHAMM减少了延迟并实现了实时图像生成——这是实现更流畅的游戏互动的重要一步。
该模型的培训过程也反映了实质性的进步。虽然WHAM-1.6B需要七年的游戏数据进行训练,但开发人员只教了WHAMM一周的精选《地震II》游戏。他们通过使用专注于单个级别的专业游戏测试员的数据来实现这种效率。GenAI的视觉输出分辨率也得到了提升,从300 x 180像素提高到640 x 360像素,从而提高了图像质量,而没有对底层编码器-解压器架构进行重大更改。
尽管取得了这些技术进步,但WHAMM远非完美,它仍然是一个研究实验,而不是一个完全实现的游戏解决方案。该模型展示了适应用户输入的令人印象深刻的能力。不幸的是,该模型在滞后和图形异常中挣扎。
玩家可以执行基本动作,如射击、跳跃、蹲下和与敌人互动。然而,敌人的互动存在明显的缺陷。角色经常显得模糊不清,战斗机制不一致,有健康跟踪和伤害统计错误。
限制超出了战斗机制。该模型的上下文长度有限。该模型会忘记离开玩家视野超过十分之九秒的物体。这个缺点造成了不寻常的游戏怪癖,如瞬间移动或在改变相机角度时随机生成敌人。
此外,WHAMM的模拟范围仅限于Quake II的单一级别。由于缺乏记录的数据,试图超越这一点会冻结图像生成。延迟问题进一步影响了扩展供公众使用时的体验。
虽然参与WHAMM作为一种新奇事物可能令人愉快,但微软无意复制最初的Quake II体验。它的人工智能开发人员只是在探索机器学习技术,他们可以用来创建交互式媒体。
本文转载自Techspot,本文观点不代表雅典娜AI助手YadiannaAI立场。