AI代理人赢得创意竞赛:人类专家败下阵来

AI代理人如今能够独立进行研究早已不再是科幻。日本公司Sakina AI最近发布了一款据称可以自主设计实验以验证假设的AI,并能评估结果,进而为进一步研究提供新建议。然而,关于AI产生的想法是否真正有价值,至今尚未进行系统的研究。Chenglei Si、Diyi Yang和Tatsunori Hashimoto现已就此发表了一项全面的研究作为预印本论文。创意竞赛:

人类对抗机器
他们招募了49名人类AI专家,为机器语言处理(NLP)领域提出研究计划建议。这些专家有十天的时间来撰写这些建议,每提交一份建议可获得300美元。此外,还设立了对评审认为最优秀的五个想法每个发放1000美元奖励的奖项。同时,研究者还聘请了79名人类专家,他们有一周的时间来评估最多七个提交的建议。评审不知道他们评估的是人类还是AI生成的文本。

AI概念优于人类在哪些方面
整体上,AI生成的概念表现稍好,尤其被认为比人类撰写的更“引人入胜”。论文作者指出,人类更集中于当前为人熟知的问题,并更多地考虑项目的可行性。因此,AI建议在可行性评价上比人类略低。AI创意生成器如何运作
表现优异的AI主要基于Anthropic的大型语言模型Claude 3.5,并结合了其他软件模块。

例如,AI代理人能够通过在线服务Semantic Scholar找到预设研究主题的已发表文章。基于论文搜索的最佳结果,语言模型提出了4000个开放的持续研究问题。一个评估模块从这4000个建议中挑选出最佳的创意。然而,这项工作的有趣结果是4000这个数字显然过高,通常只有约200个是实际可用的。下一步:

AI会议的想法
Si和他的同事们还让他们的AI代理人为一个AI会议生成想法,他们计划在秋季将这些想法与实际被评为最佳的会议贡献进行比较。下一步,他们还考虑让AI撰写代码,以检验所提出的假设。不过,这种方法能否应用于AI研究之外的其他学科仍是一个有趣的问题。因为即便在狭窄的专业范围内,AI尽管能提出一些吸引人的问题,人类评审对这些项目的意义和价值却常常不太认可。