作者:刘文轩
OpenAI昨晚发布的GPT-4o给许多智能助理丢下一颗震撼弹。它不仅是一款强大的多模态AI助理,同时,为了应对Google Gemini的免费策略,OpenAI也让它免费了。
GPT-4o其中的“o”代表“Omni”,也就是“全能”的意思,可见OpenAI对它的表现充满了自信。不仅如此,OpenAI还为macOS用户推出ChatGPT的桌面应用,不仅可以向ChatGPT提问,还能读取用户的屏幕截图。
GPT-4o的最大特点在于,它支持文本、音频、图像任意组合的输入,同时也能以这样的任意组合输出,而且能够接受最短232毫秒、平均320毫秒的音频输入,简单来说,GPT-4o的反应速度就像真实的人类一样。
在英文和代码处理能力上,GPT-4o与GPT-4 Turbo性能不相上下,但是GPT-4o已经可以直接在ChatGPT的网站使用。在非英文的能力上,GPT-4o有着明显的提升,而且API速度也更快,成本也更低。
GPT-4o提供了GPT-4级别的智能,同时改进了文本、视觉和音频方面的能力。OpenAI CTO Muri Murati表示,这些模型将越来越复杂,但交互体验需要变得更简单和自然,让用户忘记交互界面,只关注与GPT的协作上。
在演示过程中,工程师在iPhone上和GPT-4o进行了一次“视频通话”,它对即时的信息反应相当迅速,还能很好地理解人类情感,同时也能表现出丰富的情感。在视觉能力上,它也能通过手机的摄像头实时帮助工程师完成数学题甚至几何题的运算。
这么强大的能力,也让GPT-4o发布几个小时,就迅速在社交媒体上引发争论。
Nvidia高级科学家Jim Fan在X上表示:“OpenAI正在竞争中远超Character AI”,他也指出,以往OpenAI刻意压制的更具情感和个性化的AI特性,如今已经成为它迭代的方向。
AI开发者Benjamin De Kraker更感叹GPT-4o基本上就是AGI(通用人工智能):“这基本上就是AGI,这会被视为一个奇迹。当一个虚拟人能听、说、看,并且具备和人类几乎无异的推理能力时,人们还能怎么称呼它呢?”
与此同时,网络上也有一些质疑的声音。记者和作家James Vincent表示,将GPT-4o作为语音助手的推广方法很精明,但这最终只是“智能的伪装”,因为“声音的表现并不一定预示着能力的飞跃”。
对AI技术持反对意见的Artisanal Holdout表示:“OpenAI对GPT-5没有信心,在GPT-4发布一年多后才推出了GPT-4o。这对OpenAI和AI爱好者来说都是一种尴尬。”
不过,Google预计也会在北京时间5月15日凌晨的I/O大会上公布自己的大模型进展,而且Gemini早已取代Google Assistant,成为Android系统内置的虚拟助理。