GenAI技术是否能证明其巨额投资的合理性?

艾伦·图灵,这位英国数学家在二战期间破解了德国恩尼格玛加密代码,他设计了后来被称为图灵测试的方法,以确定机器是否能够模拟出类人智慧。最近,澳大利亚单位的一个参议院委员会使用了这项著名的测试来评估生成性人工智能大型语言模型(GenAI LLM)是否能够匹配甚至超越其自有员工的工作质量。

委员会与亚马逊的咨询团队合作,进行了为期五周的探索性试验,将提交给议会调查的公众意见分别由选定的LLM和人类进行总结。然后由五名业务代表对这些总结进行个别盲测和评估。这些评估者并不知道GenAI的存在。在工作结束后,评估者被告知试验的真实性质,并被问及为何会对每个总结作出这样的评分。这时,评估者才了解到使用了自动化的总结,尽管其中三人表示怀疑是一次GenAI试验。

结果显示,GenAI的总结在所有标准上均低于人类总结(总计47%对81%),从而未通过图灵测试。评论者认为,自动化总结往往缺乏重点、细微差别和上下文,包括错误信息且遗漏了相关信息,有时还引入了不相关的评论。他们得出的结论是,GenAI适得其反,实际上增加了工作量,因为需要核实并参考原始的公众意见。委员会讨论的摘要和完整报告可以公开获取。华尔街似乎越来越怀疑GenAI是否能显著回报。

从投资者的角度来看,这种所谓“变革性”技术目前相比其实际商业影响极其昂贵,并且尚未为公众提供任何“杀手级应用”。微软的资本支出同比增长75%,公司几乎将其第二季度的所有利润——约220亿美元——全部用于云计算和GenAI投资。Alphabet(谷歌母公司)对其GenAI投资的披露较少,但承认其资本支出今年将比去年“显著增加”。

亚马逊同样保守,但迄今为止,今年的资本支出已达到300亿美元,而2023年为480亿美元。与此同时,ChatGPT的OpenAI首席执行官Sam Altman正试图说服美国单位加入投资者行列,参与一项国家级GenAI基础设施计划,预计耗资“数百亿美元”,包括数据中心、发电和国家电网升级。今年6月,高盛发布了一份有争议的报告《GenAI:开支过多,收益过少?

》,其中多位分析师讨论了未来十年内GenAI可能带来的经济收益。该公司得出结论,投资者仍有回报的空间,要么是因为GenAI最终会带来突破,要么是因为其投资泡沫尚需时日才能破裂。尽管尚未从财务上证明其巨额投资的合理性,GenAI技术依然引来极大关注。新搜索引擎如Perplexity.ai相较于旧的谷歌已显著改进,尽管运行成本可能高出6到10倍。

诸如GitHub Copilot等助手有助于日常软件开发,但生成错误代码时会令人沮丧。工具如来自Black Forest Labs的Flux 1生成的超现实照片图像在虚拟试穿衣物和配饰等方面有望具有商业潜力,但这类使用场景尚未得到验证。GenAI的支持者认为我们仍处于这项技术的早期阶段,特别是指出将GenAI与自主行动相结合。这样的AI代理能够主动计划和执行任务,并根据以前的经验修改其行为。

例如,一个自动化的度假助手不仅可以预订航班和住宿,还可以根据用户和其他旅行者的经验定制游览和娱乐项目。为了探索GenAI代理团队可能的自主行为,位于旧金山的初创公司Altera在开放世界游戏Minecraft中创造了1000个自主代理。代理社区创建了自己的文化、经济、宗教和单位。镇上的居民建立了一个交易市场,但社区牧师实际上通过贿赂大家转变信仰成为了最富有的公民。拟议的宪法被比较、修改和投票通过。

当一些人失踪时,社区用火把照亮区域以引导迷路的人回来。这些活动都不是预编程的,而是由联邦AI社区自主规划、协调和执行。GenAI或许尚未通过图灵测试,但他的测试明确地针对与人类智能的比较,这也许是一种自恋的评估。可以说,我们现在目睹的是一种不同形式的智能,我们尚未完全理解,亦不能准确地进行数学分析和预测。赋予这种智能自主执行其动作的能力,会引发哲学、伦理和实际的影响。