在名为Molmo的项目中,艾伦人工智能研究所(Ai2)发布了一系列开源的多模态语言模型。该非营利性研究机构表示,这些模型的表现与OpenAI、Google和Anthropic的最佳专有模型相媲美。Ai2声称,其最大的Molmo模型拥有720亿参数,在理解图像、表格和文档的测试中超越了OpenAI的GPT-4o模型,据估计该模型拥有超过一万亿的参数。
而一个拥有七亿参数的小型Molmo模型也能够接近OpenAI最新模型的性能,Ai2将其归功于更高效的数据收集和训练方法。模型作为开源
“Molmo展示了开源AI开发现在已经可以与封闭的专有模型并驾齐驱”,Ai2的CEO Ali Farhadi说道。开源模型有一个重要的优势,即其开放性意味着其他人可以基于它们开发应用。
Molmo的演示版本可在此查看,开发者可以在Hugging Face网站上进行调试。(某些性能最强的Molmo模型元素尚未对公众开放。)
其他大型多模态语言模型在包含数十亿图像和文本样本的庞大数据集上进行训练;它们可能包含几万亿的参数。Ai2高级研究总监Ani Kembhavi表示,这一过程会导致训练数据中存在大量噪音,从而产生幻觉。
相比之下,Ai2的Molmo模型在一个包含仅60万张图像的小得多且经过精心策划的数据集上进行了训练,并拥有10亿到720亿个参数。Kembhavi指出,这种对高质量数据的关注而非随机收集的信息,导致在使用更少资源的情况下取得了良好的性能。Ai2通过让人类评论员详细描述模型训练数据集中的图像,实现了这一点。他们请评论员口述他们所看到的内容,而不是打字。
然后,他们使用人工智能技术将这些口述转换为数据,这大大加快了训练过程,同时减少了所需的计算能力。这些技术可能非常有用,如果我们希望有效地管理用于AI开发的数据,Hugging Face负责机器学习和社会的Yacine Jernite说,他没有参与这项研究。“在更高质量的数据上进行训练可以降低计算成本,这很有道理”,斯坦福大学基础模型研究中心主任Percy Liang说,他也没有参与这项研究。
另一个令人印象深刻的能力是,Molmo模型能够“指示”事物,意思是它可以通过识别回答请求的像素来分析图像的元素。通过AI进行图像分析
在MIT Technology Review提供的演示中,Ai2的研究人员拍摄了一张西雅图当地码头的照片,并让模型识别图像中的各种元素,如躺椅。模型成功描述了图片中的内容,数了数躺椅,并准确指出了图片中的其他物品,正如研究人员要求的那样。不过,它并不完美。
例如,它无法定位某个特定的停车位。Farhadi说,其他先进的AI模型擅长描述场景和图像。但这还不够,如果要开发更复杂的网络代理与世界互动,比如预订航班。指示功能使人们可以与用户界面互动,他说。Molmo的良好开端
Jernite表示,Ai2在开放性方面的运作方式比我们从其他AI公司所见的要高。Molmo虽然是一个良好的开端,但它的真正意义在于开发者基于它所构建的应用,以及人们改进它的可能性。
Farhadi对此表示同意。近年来,AI公司吸引了数十亿美元的大规模投资。但近几个月来,投资者对这些投资能否回报持怀疑态度。他认为,大型昂贵的专有模型无法实现这一点,但开源模型可以。他表示,这项工作表明,开源AI也可以以高效利用资金和时间的方式进行开发。“我们期待赋予其他人能力,并看到其他人能基于此构建出什么”,Farhadi说道。本文来自Melissa Heikkilä。
她是MIT Technology Review美国版的编辑,报道人工智能领域的最新发展。