Google Gemini AI 试图通过照片和视频智胜ChatGPT

谷歌双子星人AI旨在通过图片和视频智胜ChatGPT

谷歌开始通过名为Gemini的新AI模型为其Bard AI chatbot带来对视频、音频和照片的理解。谷歌Pixel 8手机的所有者将是第一批使用其新人工智能能力的人,但Gemini将于2024年初引入Gmail和其他谷歌Workspace工具。

全球数十个国家的人们在12月初首次获得了使用Gemini进行文字聊天的能力,尽管只能使用英语。它能够提供基于文本的聊天功能,谷歌表示这可以改善复杂任务中的人工智能能力,如摘要文件、推理、计划和编写编程代码。谷歌表示,对多媒体能力的更大改变——例如理解视频中的手势或解决孩子的连点画谜题的结果——将“很快”到来。

观看视频:

这个新版本突显了新的生成式人工智能领域发展的迅猛速度,其中聊天机器人根据我们用普通语言而不是晦涩的编程指令写的提示自动生成回答。谷歌的主要竞争对手OpenAI,在一年前推出了ChatGPT,赢得了领先优势,但Gemini是谷歌的第三个重大AI模型修订版本,预计将通过我们使用的数十亿产品(如搜索、Chrome、Google Docs和Gmail)提供这项技术。

周三,谷歌还将Gemini引入程序员群体,这是一个可以将该技术整合到自己的软件中的重要社群。可以通过基本的谷歌AI Studio Web界面或更复杂的Vertex AI来实现。此外,对于超过免费低速使用的情况,谷歌将价格降低了两到四倍。这有助于鼓励那些喜欢OpenAI编程界面的开发人员至少尝试一下Gemini。

通过争取开发人员,谷歌更有可能将Gemini推广到程序员为您构建的软件工具中。谷歌也正在将Gemini融入自己的服务中,尤其是在Gmail、Google Docs、Meet和谷歌Workspace的其他部分中的Duet AI助手。

谷歌云部门首席执行官Thomas Kurian表示:“Workspace的Duet AI将在2024年初完全转移到Gemini。”这可能帮助您将手绘的飞机变成Google Slides演示文稿中的真实版本,或者在Google Meet中更好地理解包含非本地语言幻灯片的视频会议。“Gemini的多模式理解使其能够对会议进行更丰富的摘要,”他说。

Gemini是人工智能的一次重大突破。基于文本的聊天很重要,但人类必须处理我们所处的三维、不断变化的世界中更丰富的信息。我们的回应包括复杂的交流能力,如语音和图像,而不仅仅是书面文字。Gemini试图更接近我们自己对世界的更全面理解。

谷歌表示,Gemini有三个针对不同计算能力水平定制的版本:

  • Gemini Nano适用于移动电话,提供两种不同内存可用性的版本。它将为谷歌Pixel 8手机提供新功能,如在其Recorder应用中总结对话或在使用谷歌的Gboard输入的WhatsApp中建议消息回复。
  • Gemini Pro适用于快速响应,在谷歌的数据中心中运行,并将为Bard的新版本提供动力,从周三开始。
  • Gemini Ultra目前只限于一组测试人员使用,将在2024年初推出新版本的Bard Advanced chatbot中提供。谷歌拒绝透露定价细节,但预计您将为这项顶级功能付出额外费用。

“很长一段时间以来,我们一直希望构建一代新的AI模型,其灵感来自人们对世界的理解和互动方式——一种更像是有帮助的合作者,而不是智能软件的AI,”谷歌DeepMind部门的产品副总裁Eli Collins说。“Gemini让我们离这个愿景更近了一步。”

OpenAI还为Microsoft的Copilot AI技术提供支持,包括去年11月发布的新版GPT-4 Turbo AI模型。与谷歌一样,Microsoft有主要产品(如Office和Windows),正在增加AI功能。

人工智能变得更加智能,但并不完美

当多媒体到来时,它可能会与文本相比带来很大的改变。但是,由识别大量真实世界数据中的模式进行训练的AI模型的基本问题并未改变。它们可以将越来越复杂的提示转化为越来越复杂的回应,但你仍然不能相信它们提供的答案是回答问题而不是实际正确的答案。正如谷歌的聊天机器人在使用时所警告的那样:“Bard可能显示不准确的信息,包括关于人物的信息,因此请仔细核实它的回应。”

Gemini是谷歌大型语言模型的下一代,它是迄今为止Bard基础的PaLM和PaLM 2的续集。但通过同时在文本、编程代码、图像、音频和视频上训练Gemini,它能够更高效地应对多媒体输入,而不是通过独立但相互关联的AI模型处理每种输入模式。

根据谷歌的研究论文 (PDF)所述,Gemini的能力有很多种。

对于一系列由三角形、正方形和五边形组成的形状,它可以正确地猜测下一个形状是一个六边形。当给出月亮的照片和一个手握高尔夫球的手,并要求找到它们之间的联系时,它可以准确地指出阿波罗宇航员在1971年在月球上击中了两个高尔夫球。它将显示每个国家的垃圾处理技术的四个条形图转化为一个带有标签的表格,并发现了一个异常数据点,即美国在垃圾场中丢掉的塑料比其他地区多得多。

该公司还展示了Gemini处理一个手写的物理问题,该问题涉及一个简单的草图,它能够找出学生错误的地方并解释如何修正。更复杂的演示视频展示了Gemini识别蓝色的鸭子、手偶、戏法和其他视频。然而,所有的演示都不是实时的,Gemini在这些挑战中受挫的频率还不清楚。

谷歌的Gemini视频是假的吗?

谷歌在演示视频中宣传了Gemini,声称它能够识别手势、追踪戏法,并按离太阳的距离对行星的图片排序 – 以上都是通过视觉数据实现的。然而,你应该将其视为Gemini真实能力的夸张描述。

在宣传视频中,产品往往会被夸大其词,使其看起来比实际情况更加迷人。在这种情况下,你可能会认为Gemini正在处理视频输入数据和口头指令。谷歌在视频中包含了一些细则:一个免责声明,指出Gemini的响应不够快,以及在视频描述中提供了一个关于谷歌的Gemini演示实际是如何工作的讨论的链接。然而,你可能没有注意到这些。谷歌还在X上发布了一篇关于Gemini响应速度实际上有多快的帖子。

尽管如此,该视频并没有从根本上误导Gemini的能力,尽管外部人士通常无法对其进行测试。它可以接受口头和视频输入。

Gemini Ultra将于2024年发布

Gemini Ultra将在明年进一步测试之前进行。

对于Gemini Ultra,谷歌正在进行“红队测试”,即请人们发现安全漏洞和其他问题。这些测试在涉及多媒体输入数据时更为复杂。例如,一个文本消息和一张照片各自可能是无害的,但当配对在一起时可能传达截然不同的含义。

“我们将大胆而负责地进行这项工作”,谷歌首席执行官桑达尔·皮查伊在一篇博文中表示。这意味着将雄心勃勃的研究与潜在的巨大回报相结合,同时加入保护措施并与政府以及其他相关方合作“解决随着人工智能变得更加强大所带来的风险。”

编辑注:ENBLE正在使用人工智能引擎来帮助创建一些报道。了解更多信息,请参阅此篇文章