发帖

[讨论]

你知道AlphaGo是怎么下棋的吗？AlphaGo为什么能赢李世石？

2016-3-10 14:27:17 6305 机器人人工智能

0 ` 本帖最后由 ElecFans处女座于 2016-3-10 14:38 编辑 AlphaGo赢了第一局，尽管比赛一共设有5局，但是AlphaGo第一局就赢了世界围棋冠军李世石！那你们知道AlphaGo是怎么下棋的吗？AlphaGo为什么能赢李世石？在网上有篇文章，具体讲解了AlphaGo是怎么下棋的。非常有意思，我们一起看看吧。按：本文由董飞编译于：How AlphaGo Works ，原作者SpinPunch CTO DAN MAAS。作者微信公号“董老师在硅谷”。刚刚人类职业选手世界冠军李世石九段认输，第一局AlphaGo赢了。谷歌DeepMind宣布他们研发的神经网络围棋AI，AlphaGo，在2015年10月首次5:0战胜了人类职业选手欧洲围棋冠军Fan Hui二段。这篇论文由David Silver等完成。里面的技术是出于意料的简单却又强大。为了方便不熟悉技术的小白理解，这里是我对系统工作原理的解读。以下是编译正文：深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入，通过非线性激活方法取权重，再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样，通过合适的矩阵数量，多层组织链接一起，形成神经网络“大脑”进行精准复杂的处理，就像人们识别物体标注图片一样。虽然神经网络在几十年前就有了，直到最近才形势明朗。这是因为他们需要大量的“训练”去发现矩阵中的数字价值。对早期研究者来说，想要获得不错效果的最小量训练都远远超过计算能力和能提供的数据的大小。但最近几年，一些能获取海量资源的团队重现挖掘神经网络，就是通过“大数据”技术来高效训练。两个大脑 AlphaGo是通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始，去处理围棋棋盘的定位，就像图片分类器网络处理图片一样。经过过滤，13 个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。这些网络通过反复训练来检查结果，再去校对调整参数，去让下次执行更好。这个处理器有大量的随机性元素，所以我们是不可能精确知道网络是如何“思考”的，但更多的训练后能让它进化到更好。第一大脑: 落子选择器（Move Picker) AlphaGo的第一个神经网络大脑是“监督学习的策略网络(Policy Network)” ，观察棋盘布局企图找到最佳的下一步。事实上，它预测每一个合法下一步的最佳概率，那么最前面猜测的就是那个概率最高的。你可以理解成“落子选择器”。（落子选择器是怎么看到棋盘的？数字表示最强人类选手会下在哪些地方的可能。）团队通过在KGS（网络围棋对战平台）上最强人类对手，百万级的对弈落子去训练大脑。这就是AlphaGo最像人的地方，目标是去学习那些顶尖高手的妙手。这个不是为了去下赢，而是去找一个跟人类高手同样的下一步落子。AlphaGo落子选择器能正确符合57%的人类高手。（不符合的不是意味着错误，有可能人类自己犯的失误）更强的落子选择器 AlphaGo系统事实上需要两个额外落子选择器的大脑。一个是“强化学习的策略网络（Policy Network）”，通过百万级额外的模拟局来完成。你可以称之为更强的。比起基本的训练，只是教网络去模仿单一人类的落子，高级的训练会与每一个模拟棋局下到底，教网络最可能赢的下一手。Sliver团队通过更强的落子选择器总结了百万级训练棋局，比他们之前版本又迭代了不少。单单用这种落子选择器就已经是强大的对手了，可以到业余棋手的水平，或者说跟之前最强的围棋AI媲美。这里重点是这种落子选择器不会去“读”。它就是简单审视从单一棋盘位置，再提出从那个位置分析出来的落子。它不会去模拟任何未来的走法。这展示了简单的深度神经网络学习的力量。更快的落子选择器 AlphaGo当然团队没有在这里止步。下面我会阐述是如何将阅读能力赋予AI的。为了做到这一点，他们需要更快版本的落子选择器大脑。越强的版本在耗时上越久－为了产生一个不错的落子也足够快了，但“阅读结构”需要去检查几千种落子可能性才能做决定。 Silver团队建立简单的落子选择器去做出“快速阅读”的版本，他们称之为“滚动网络”。简单版本是不会看整个1919的棋盘，但会在对手之前下的和新下的棋子中考虑，观察一个更小的窗口。去掉部分落子选择器大脑会损失一些实力，但轻量级版本能够比之前快1000倍，这让“阅读结构”成了可能。第二大脑：棋局评估器（Position Evaluator） AlphaGo的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步，它预测每一个棋手赢棋的可能，在给定棋子位置情况下。这“局面评估器”就是论文中提到的“价值网络（Value Network)”，通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的，但对于阅读速度提高很有帮助。通过分类潜在的未来局面的“好”与“坏”，AlphaGo能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行，那么AI就跳过阅读在这一条线上的任何更多落子。（局面评估器是怎么看这个棋盘的。深蓝色表示下一步有利于赢棋的位置。）局面评估器也通过百万级别的棋局做训练。Silver团队通过复制两个AlphaGo的最强落子选择器，精心挑选随机样本创造了这些局面。这里AI 落子选择器在高效创建大规模数据集去训练局面评估器是非常有价值的。这种落子选择器让大家去模拟继续往下走的很多可能，从任意给定棋盘局面去猜测大致的双方赢棋概率。而人类的棋局还不够多恐怕难以完成这种训练。增加阅读* 这里做了三个版本的落子选择大脑，加上局面评估大脑，AlphaGo可以有效去阅读未来走法和步骤了。阅读跟大多数围棋AI一样，通过蒙特卡洛树搜索（MCTS）算法来完成。但AlphaGo 比其他AI都要聪明，能够更加智能的猜测哪个变种去探测，需要多深去探测。（蒙特卡洛树搜索算法）如果拥有无限的计算能力，MCTS可以理论上去计算最佳落子通过探索每一局的可能步骤。但未来走法的搜索空间对于围棋来说太大了（大到比我们认知宇宙里的粒子还多），实际上AI没有办法探索每一个可能的变种。MCTS做法比其他AI有多好的原因是在识别有利的变种，这样可以跳过一些不利的。 Silver团队让AlphaGo装上MCTS系统的模块，这种框架让设计者去嵌入不同的功能去评估变种。最后马力全开的AlphaGo系统按如下方式使用了所有这些大脑。 1. 从当前的棋盘布局，选择哪些下一步的可能性。他们用基础的落子选择器大脑（他们尝试使用更强的版本，但事实上让AlphaGo更弱，因为这没有让MCTS提供更广阔的选择空间）。它集中在“明显最好”的落子而不是阅读很多，而不是再去选择也许对后来有利的下法。 2. 对于每一个可能的落子，评估质量有两种方式：要么用棋盘上局面评估器在落子后，要么运行更深入蒙特卡罗模拟器（滚动）去思考未来的落子，使用快速阅读的落子选择器去提高搜索速度。AlphaGo使用简单参数，“混合相关系数”，将每一个猜测取权重。最大马力的AlphaGo使用 50/50的混合比，使用局面评估器和模拟化滚动去做平衡判断。这篇论文包含一个随着他们使用插件的不同，AlphaGo的能力变化和上述步骤的模拟。仅使用独立大脑，AlphaGo跟最好的计算机围棋AI差不多强，但当使用这些综合手段，就可能到达职业人类选手水平。（AlphaGo的能力变化与MCTS的插件是否使用有关。）这篇论文还详细讲了一些工程优化：分布式计算，网络计算机去提升MCTS速度，但这些都没有改变基础算法。这些算法部中分精确，部分近似。在特别情况下，AlphaGo通过更强的计算能力变的更强，但计算单元的提升率随着性能变强而减缓。优势和劣势我认为AlphaGo在小规模战术上会非常厉害。它知道通过很多位置和类型找到人类最好的下法，所以不会在给定小范围的战术条件下犯明显错误。但是，AlphaGo有个弱点在全局判断上。它看到棋盘式通过55金字塔似的过滤，这样对于集成战术小块变成战略整体上带来麻烦，同样道理，图片分类神经网络往往对包含一个东西和另一个的搞不清。比如说围棋在角落上一个定式造成一个墙或者引征，这会剧烈改变另一个角上的位置估值。就像其他的基于MCTS的AI， AlphaGo对于需要很深入阅读才能解决的大势判断上，还是麻烦重重的，比如说大龙生死劫。AlphaGo 对一些故意看起来正常的局也会失去判断，天元开盘或者少见的定式，因为很多训练是基于人类的棋局库。我还是很期待看到AlphaGo和李世石9段的对决！我预测是：如果李使用定式，就像跟其他职业棋手的对决，他可能会输，但如果他让AlphaGo陷入到不熟悉情形下，他可能就赢。参考资料：* 1、Nature 论文。 2、关于 AlphaGo 论文的阅读笔记。 ` 0
2016-3-10 14:27:17　　评论淘帖0 举报相关推荐 • AlphaGO大胜李世石但与“划时代”无关 1354 • AlphaGo对局李世石两周年纪：AI算法的秘密 1213 • 谷歌人工智能围棋程序AlphaGo战胜李世石 645 • 棋圣聂卫平：AlphaGo输给李世石是因为断电死机 1155 • 探索人工智能AlphaGo能赢的幕后关键 1008 • 图文详解AlphaGo的原理及弱点 0 • 为什么AlphaGo不是人工智能 0 • 深度解读AlphaGo 0 • 人工智能VS围棋名将李世石，谁会赢？ 10596 • 基于 ZYNQ AlphaGo 的棋类人机博弈 AR 系统 976 8 个讨论

0 666，高大上，看不懂看懂我也做个机器人

2016-3-11 16:54:49 评论举报 1^# 王志睿

0 看着Alphago不瘟不火击败李世石，感觉人工智能又向前跨了一大步

2016-3-12 08:29:14 评论举报 2^# mrplplplpl

0 牛气冲天啊。

2016-3-12 09:34:33 评论举报 3^# 柠檬守护

0 不容易，小李扳回一盘

2016-3-14 08:15:00 评论举报 4^# mrplplplpl

0 mrplplplpl 发表于 2016-3-14 08:15 不容易，小李扳回一盘是啊李世石不按套路来弄的AlphaGoBUG了

2016-3-14 15:13:59 评论举报 5^# fanB

0 fanB 发表于 2016-3-14 15:13 是啊李世石不按套路来弄的AlphaGoBUG了今天看看第五盘，如果还能执黑赢Alphago的话，可能人类在目前还不能说已经被人工智能击败，可惜不能再多下几盘了。但如果无法逼出Alphago 的缺陷（象第四盘那样），赢棋还是很难的

2016-3-15 08:35:35 评论举报 6^# mrplplplpl

0 前面下棋粗糙，是为了迷惑机器人，选择较为简单的棋局，层层陷阱总会有个闪失。

2016-3-15 11:18:42 评论举报 7^# fengkuangboshi

0 李世石的棋风是那种对杀型的选手，而人工智能在局部的对杀中应该更占优势，毕竟人工智能失误率更低，或者说没有低级失误，应该找那种布局型的棋手与人工智能对战，不过从长远看，人工智能在围棋上完胜人类是肯定的。毕竟计算机的速度越来越快，而人类在现有规则下的各种定式已经研究的差不多了。

2016-3-17 13:23:15 评论举报 8^# 高增华

只有小组成员才能发言，加入小组>>

智能硬件论坛

3039个成员聚集在这个小组

精选推荐

【KV260视觉入门套件试用体验】三、开发板性能评估

9418 浏览 0 评论
【KV260视觉入门套件试用体验】四、KV260 视觉入门套件和固件更新

10214 浏览 0 评论
【KV260视觉入门套件试用体验】Vitis AI Library体验之OCR识别

9347 浏览 0 评论
【KV260视觉入门套件试用体验】Vitis AI 通过迁移学习训练自定义模型

10230 浏览 0 评论
【KV260视觉入门套件试用体验】KV260系列之Petalinux镜像+Resnet 50探索

9492 浏览 0 评论

最新话题

热门话题

创建小组步骤

创建小组创建自己的地盘
个性设置精心打造小组空间
邀请好友邀请好友加入我的小组
小组升级小组积分升级赢得社区推荐

创建属于自己的小组

快速回复 返回顶部 返回列表

关注微信公众号

电子发烧友网

电子发烧友论坛

社区合作: 刘勇; 联系电话：15994832713; 邮箱地址：liuyong@huaqiu.com

社区管理: elecfans短短; 微信：elecfans_666; 邮箱：users@huaqiu.com

返回智能硬件论坛

回复

关闭

站长推荐 /9

快速回复 返回顶部 返回列表

- 厂商专区: 飞凌嵌入式

瑞萨单片机论坛

米尔电子

Aigtek安泰电子

斯丹麦德电子

芯佰微电子

其利天下技术小组

道生物联技术社区

视美泰

FCom富士晶振

大大通

合众恒跃

进迭时空

RT-Thread论坛

EASY-EAI灵眸科技

- 技术社区: 张飞电子技术社区

KaihongOS技术社区

FPGA开发者技术社区

RISC-V MCU技术社区

HarmonyOS技术社区

- OpenHarmony开源社区: OpenHarmony开源社区

- 嵌入式论坛: ARM技术论坛

STM32/STM8技术论坛

嵌入式技术论坛

单片机/MCU论坛

RISC-V技术论坛

瑞芯微Rockchip开发者社区

FPGA|CPLD|ASIC论坛

DSP论坛

- 电路图及DIY: 电路设计论坛

DIY及创意

电子元器件论坛

专家问答

- 电源技术论坛: 电源技术论坛

无线充电技术

- 综合技术与应用: 机器人论坛

USB论坛

电机控制

模拟技术

音视频技术

综合技术交流

上位机软件（C/Python/Java等）

- 无线通信论坛: WIFI技术

蓝牙技术

天线|RF射频|微波|雷达技术

- EDA设计论坛: PCB设计论坛

DigiPCBA论坛

Protel|AD|DXP论坛

PADS技术论坛

Allegro论坛

multisim论坛

proteus论坛|仿真论坛

KiCad EDA 中文论坛

DFM|可制造性设计论坛

- 测试测量论坛: LabVIEW论坛

Matlab论坛

测试测量技术

传感技术

- 招聘/交友/外包/交易/杂谈: 项目外包

供需及二手交易

工程师杂谈|交友

招聘|求职|工程师职场

- 官方社区: 发烧友官方/活动

华秋商城

华秋电路

+ 元器件搜索引擎: 元器件搜索引擎

time

recommend

hot

post

—
—
—

版
块
导
航