宾大最新研究：AI产生创意的效率比人类高7倍-木庄网络博客

本文摘自浅语科技，原文链接：https://mini.eastday.com/mobile/230813191213382998094.html，侵删。

很多人认为人工智能没有创新能力，但下面的研究将会改变这个「刻板印象」。

从围棋到游戏，再到完成各种重复性的劳动，AI在很多方面的能力已经远超人类。

很多人已经在畅想，未来AI将人类从无聊的工作中解放出来，让人类能专注于只有人类才能完成的工作上。

比如和人类之间的情感交流，或者需要创造力的工作。

但是最近已经有不少研究证实，AI对于人类情感的感受和表达，比很多人做得都要好。

同样的，创造力这个事情，AI似乎也不比人类差。

最近，人机交互专家雅各布尼尔森（JakobNielsen）写了一篇专栏文章，用3个最近的科学研究和一篇由ChatGPT创作的短文，向我们证明了：

对于需要创造力的工作，也快没人类什么事了！研究一：人工智能生成的顶尖产品创意比人类多7倍

由康奈尔科技学院以及宾夕法尼亚大学沃顿商学院的研究人员共同完成的一个研究，将ChatGPT4与人类进行了比较，人类对照组是「就读于精英大学的学生」。

尽管学生不是基于创造力被录取到「精英大学」的，但他们无疑至少部分是基于智商和学业表现被录取的。他们在几乎所有智力能力的衡量标准上很可能远远超过人口平均水平。

学生数据是在2021年收集的，也就是在生成式AI广泛普及之前，因此可以认为数据在一定程度上就是纯粹的人类创造力的表现。

因为，在不限制人类对照组禁止使用AI工具的情况下，对于人类与AI的研究将很快变得困难，因为任何聪明的学生都可能会在类似的任务上使用AI工具。

研究者给学生和AI同时布置一个任务：

「您是一位寻求创新创业的企业家，希望产生新的产品创意。该产品面向美国的大学生。它应该是一个实物商品，而不是服务或软件。

这个产品的零售价格能够低于约50美元。产品不一定需要已经存在，也不一定必须明确可用。」

这个过程类似于在现实的公司中产生新的产品的创意流程，因为研究人员不希望限制产品的原始创意。

实际上，一开始看似不可能实现的想法往往在工程师们思考过后，也许都能被生产出来，最终可能取得巨大的商业成功。

在对头脑风暴结果进行简单的微调之后，研究人员首先让人工智能独立生成了100个创意，然后向其展示了一些好创意的样本，之后它再生成了100个创意。

研究的第一个发现是，人工智能在生成创意方面比人类效率高得多。ChatGPT在15分钟内生成了200个产品创意，而人类平均表现是在同样时间内产生5个同水平的创意。

换句话说，ChatGPT在生成创意方面比人类高效40倍，性能提升了3900%。

但是对于产品创意而言，创意的数量远不及质量重要。毕竟，不好的创意都是没用的。

研究人员通过让20名人类评委评估每个创意来衡量创意的质量，评委会评估他们购买该创意描述的产品的兴趣有多大。

根据评委的购买意向，研究者让他们在0-1之间评分，人类生成的产品创意得分为0.40。而ChatGPT的创意得分分别为0.47（独立生成的创意）和0.49（在展示了优秀案例之后生成的创意）。

AI与人类之间的差异是显著的（p<0.001），而两个AI得分的差异却不明显。

但就像上面讨论过的，平均创意质量得分不重要，大多数不好或中等的创意其实是没有价值的。

因此，更重要的是考虑好的创意（在这里定义为前10%）和最好的创意质量（在真实商业环境中可能成为实际产品的创意）。

以下是最佳创意中的分数：

人类：前十分之一的平均分为0.62，最好创意的分数为0.64

未看到好创意示例的ChatGPT：前十分之一的平均分为0.64，最好创意的分数为0.70

看过好创意示例的ChatGPT：前十分之一的平均分为0.66，最好创意的分数为0.75

在这个评价标准之下，AI与人类之间的差异同样是很明显的（p<0.001），而两个AI分数之间的差异则依然不明显。

从另一个角度来看数据，如果只看整个创意池的前10%，无论是人类还是人工智能生成的创意，87.5%的最佳创意来自ChatGPT，只有12.5%来自大学生。

两个群体都贡献了相同数量的原始创意，因此这个百分比差异是非常显著的。

在这项数据分析中，AI的创造力是人类的7倍！

新颖性上人类稍胜一筹

对产品创意另一个衡量标准是新颖性。足够新颖的产品可能一开始看起来并不吸引人，只有在市场上一段时间后，消费者才会意识到这些革命性创意的好处。

创意新颖性是人类在这项创造力研究中的唯一做得比AI好的地方。

在0-1的评分尺度上，人类的平均创意新颖性得分为0.41，而AI的平均得分分别为0.37和0.36。

同样，人类与人工智能之间的差异是明显，两个人工智能分数之间的差异则不明显。研究二：ChatGPT4在托伦斯创造性思维测试中得分排名前1%，击败99%的人类

另一个研究是由蒙大拿大学、维尔纽斯大学和蒙大拿大学西部分校的研究人员完成的。

他们采用了托伦斯创造性思维测试（TTCT），这是使用最广泛、引用最广泛的创造力测试。我们之前的文章对这个研究做了比较详细的介绍。研究三：头脑风暴商业策略研究

同样，ChatGPT在商业战略上地表现也十分惊艳。

来自意大利的CapgeminiInvent公司在《哈佛商业评论》上发表了一篇使用ChatGPT作为商业合作伙伴的案例研究，并将其作为相关方面的专家给出的建议和规划整理成了一本书。