Deepmind学者最近把其观点总结成Reward Is Enough,其错误在于:reward不是有效观察量


所有跟贴·加跟贴·新语丝读书论坛

送交者: scott 于 2021-07-03, 16:13:37:

回答: 政治的黑暗,远远超出我的想象。所以,我不想参与政治,也不想受政治干扰。 由 scott 于 2021-07-03, 11:24:53:

长期的reward和短期的reward可能指向相反的方向。

Reward Is Enough观点是AlphaGo Zero的基础,也跟无人汽车技术有关。所以,AlphaGo Zero和无人汽车技术都有问题。

SAE level 4自动驾驶标准的定义也有严重问题,无法提供有效的测试方法。原因也在于没有找到有效观察量。

现在恶性竞争越来越严重,社会越来越血腥。

如果严重的学术错误不纠正,正确学术观点受压制、排斥、打击,我也没有办法。




所有跟贴:


加跟贴

笔名: 密码: 注册笔名请按这里

标题:

内容: (BBCode使用说明