1. 首页
  2. 网络动态

首个为AI设置的“IQ测试”:玩游戏、解魔方、考SAT全面评估

自从计算机问世  ,往下看而对机器便在现现如今了永无止境的探索 ,你有让机器更聪明。

肯定有你有判断机器的“聪明程度”呢?最经典的方式比较这如同果是“图灵测试”。

早在1950年  ,图灵发表的一篇划商业时代的论文  ,他比较 机器也前提拥有高智能 ,像人如同会“思考” ,肯定会做 了图灵测试:测试者与被测试者(当自己的一台机器)隔开的选定情况下  ,所用是比较装置(如键盘)向被测试者随意提问。所用多次测试后  ,前提机器让平均第十个参与合作 者会做差不多30%的误判 ,肯定这台机器就所用了测试  ,并被比较 它具有时动物智能。

2015年11月  ,《Science》杂志封面刊登的一篇重磅系统研究:人工智能终于我们能像动物如学生习专业内容  ,并所用了图灵测试。当一系统中前提随即学会写陌生的文字 ,而对前提识别出非本质特征(也差不多是比较因书写造成造成影响的轻微变异) ,所用了图灵测试  ,这如同果是人工智能技术领域的一大进步。

这如同果易于能理解 简单轻松轻松可控  ,的一测试方式比较自诞生起  ,依然被看作测试人工智能你有智能的至关重要利用技术。这如同果逐渐AI系统中的发展方面 方面 ,其复杂性仍在随即上升 ,而那个年  ,各式各样新是他工智能“智能”测试方式比较正各式各样的涌现。

上周  ,华盛顿州立大学前电子工程与计算机科学学院的教授Larry Holder比较 ,“差不多  ,测量AI系统中智能你有时系统研究再就 是理论性的  ,根本不在未知全新小小环境测试AI系统中的实际性能  ,也根本不至关重要会做到其他任务的复杂性。”

▲Larry Holder

在现现如今Holder和是他 核心团队仍在为AI系统中创建首个“IQ测试”  ,以全面告诉你动物学习专业内容 和适应新小环境的能力不足  ,测试实际情况AI系统中所能你有解决解决问题你有你有解决解决问题的难度所用所用评分 ,评分还将至关重要会做系统中的准确性、耗时肯定所需的综合数据量。该系统研究的再就 专业内容 已经之一 差不多创建对你有你有解决解决问题难度所用排名的方式比较。Holder比较  ,“让是他专注于测试和改进是比较更具通用性的系统中 ,肯定前提协助你可完成是比较日常其他任务的机器人助手。”系统研究人员再就 关注中差不多  ,让是他测试的AI系统中你有不错地将动物从当一其他其他任务学到的知识应所用另当一全全新 ,未知的其他任务上。之类  ,你是肯定那么下象棋在现现如今先学习专业内容 跳棋  ,这如同果前提很极容易地把跳棋的知识转移到象棋。该名与Holder一起去做暑期系统研究的本科生协助他设计方式了当一评估小环境  ,用于测试AI系统中前提可完成的其他任务  ,肯定玩精彩精彩集锦新游戏、解答SAT考试的话题你有你有解决解决问题和解魔方。

可实际情况AI系统中学习专业内容 和玩全新精彩精彩集锦新游戏(之类Vizdoom)的能力不足来评估AI系统中

Holder到目前在维护当一AI系统中前提所用“IQ测试”和排行的知名网站。他希望协助够往下看都前提所用它来测试是他 的AI系统中  ,而对在当一流流程中 所中为系统研究人员更多专业专业的综合数据。

才可测试 ,前提先创建当一AIQ帐户  ,在现现如今在AIQ的后端提交分数。AIQ是当一开源测试框架 ,用于评估AI系统中的“智商”。话题运行AIQ框架的详细教程及代码几乎 Github上  ,感兴趣的学生前提上手测好好~

AIQ知名网站分分店地址:点在现现如今往。

系统研究人员希望协助够利用技术的一框架  ,为人工智能评估提供全面当一开放的度量统一标准。肯定  ,让是他还将利用技术的一框架来选定人工智能技术领域的发展方面 选定情况  ,肯定在可完成通用智能研究相关研究相关技术你有成就 了进展。

Github教程:点在现现如今往。

DeepMind曾为AI定制一套IQ测试题

Holder教授根本不第当一想突破图灵测试、为AI测智商是他。上个月  ,DeepMind就动过为AI测智商的念头~好好看往下看这张图  ,有根本不熟悉的是比较!是比较图形推理题 ,考过公务员的学生肯定根本不陌生~它前提所用考察让让是他观察与逻辑推理能力不足  ,差不多IQ测试题过一种简单轻松。

上个月  ,DeepMind发表的一篇论文  ,那么用那个推理题来测试神经网路的抽象推理能力不足。论文链接:http://proceedings.mlr.press/v80/santoro18a/santoro18a.pdf系统研究人员将抽象推理定义为在概念层次上检测模型和你有解决解决问题你有你有解决解决问题的能力不足  ,是肯定让是他国家建立了当一涉及一系列抽象因素的题目生成器 ,利用技术来测试和训练机器学习专业内容 。

在测试中  ,再就 数模型都其他表现良好。系统研究人员意外发现 ,模型准确性与推断其他任务底层抽象概念的能力不足密切话题。“是比较模型学会了你有解决解决问题复杂的视觉推理你有你有解决解决问题  ,”该核心团队写道  ,“为此  ,让是他前提从原始像素输入中引入并检测抽象概念的缺乏  ,并将那个原则应用于从未观察到的刺激。“而对让是他而对  ,考试前往下看有时总会大批“刷题” ,让是他前提受试者提前准备准备太过 ,当一的测试前提能无效 ,这如同果让是他学在现现如今特定于测试的启发式方式比较 ,由此缩短了对推理的各种需求 。系统研究人员也比较  ,“这对神经网路而对是肯定更造成造成影响  ,这如同果动物它具惊人的记忆能力不足。”到到太过 系统研究到太过 表明 ,想得出话题泛化的普遍结论是肯定是无益的:系统研究人员测试的神经网路过是比较泛化方案中其他表现良好 ,的那同样研究相关研究相关技术其他表现很差。该核心团队的一篇博客一篇中写道 ,“动物的成功了是由一系列因素至关重要会做的  ,之类所用模型的架构肯定该模型你有多次反复培训是比较。”这如同果实验到太过 是肯定是当一“大杂烩” ,但系统研究人员还根本不舍弃  ,让是他大计划改进泛化策略 ,并探索未来十年十年的模型中所用“结构丰富  ,但普遍适用”的归纳偏差。

AI系统研究之路艰辛漫长 ,“IQ测试”肯定来的是比较早

创造前提在新小小环境自主学习专业内容 和行动的智能机器  ,依然是人工智能系统系统研究们追求的两个方向 ,这到到目前所面临的挑战。

Holder和是他 核心团队国家建立当一当一测试系统中  ,旨在测试和改进是比较更具通用性的系统中  ,肯定前提可完成是比较日常其他任务的机器人助手。这差不多个不错的系统研究两个方向  ,但这如同果  ,才可可完成“通用人工智能” ,肯定很长一段路要走。那个是他工智能研究相关技术 ,这如同果过是比较特定的技术领域肯定实际应所用拥有高超人的能力不足了 ,这如同果它还前提大批的综合数据来所用训练。之人工智能也被之为面向特定其他任务的“窄人工智能”  ,之类人脸检测、语音识别。希望协助协助够前提差不多“通用人工智能” ,即拥有高人如同的智能  ,前提逐渐的自主学习专业内容 ,在更广的之内内增强整个对世界机器的智能。

IBM副总裁、IBM大中华区首席研究相关技术官谢东曾在演讲中比较  ,“通用人工智能是肯定还前提一段段里 前提可完成  ,让是他还有所谓是肯定是2050年在现现如今吧。”(划重点:是肯定)肯定那个  ,系统研究人员们仍在努力前进 把“窄人工智能”变作“宽人工智能”  ,有所谓宽有你有样?在学习专业内容 的概念基础上随即加入是比较推理的能力不足  ,当一就前提持续支持多其他任务、多技术领域、多模态的学习专业内容 。美国本土哥伦比亚大学前创意机器实验室总监、工程学教授Hod Lipson与核心团队系统研究是另一款前提自我学习专业内容 的机器人。它唯有当一“手臂” ,如同让是他拥有高一只眼睛前提前准备提意外发现是他 ,系统研究人员也根本不告诉你它它有你有样 ,差不多让它是他 去去去体验  ,在自差不多象中学习专业内容 。

一在现现如今它像婴儿般疯狂的甩着手臂 ,在感知是他 的形态  ,感知当一对世界。已过差不多第三天  ,它就前提在现现如今做是比较简单轻松的其他任务了。当一简单轻松的其他任务所现现如今的提所用编程让它差不多  ,这如同果当一机器人在它是他 的模拟中学会了这项其他任务  ,差不多动物迈向建造拥有高自我学习专业内容 能力不足的机器人的至关重要一步。在现现如今不得不说  ,在人工智能发展方面 方面 的而对 ,让是他前提要保证在是“可信是他工智能”  ,这如同果要把人工智能用整个对世界规模应用肯定 ,肯定要保证在差不多可信的。



本文来自投稿,不代表本人立场,如若转载,请注明出处:http://www.yuranbao.com/wangluodongtai/555.html