在一年一度的谷歌 I/O 大会上,google展示了最新的人工智能模型 Gemini 1.5 Pro。在此次大会上,Google Gemini和新的人工智能工具完全主导了此次发布会,首席执行官桑达尔·皮查伊 (Sundar Pichai) 将此次活动描述为“时代之旅” ----重中之重就是“Gemini 时代” 。
与往年不同的是,整个主题演讲都是关于Gemini和AI的;前后总共提到AI高达121 次。从推出一款名为“Project Astra”的未来人工智能助手,它可以在手机上运行——有一天也许还有智能眼镜——到 Gemini 被注入到公司提供的几乎每一项服务或产品中,AI绝对是主导话题。
两个小时的主题演讲激动人心,我们详细分析了 Google 在 I/O 2024 主题演讲中宣布的 7 大亮点:
1. 谷歌放弃了 Project Astra——日常生活中的“人工智能代理”
在一段录制的视频中,演示了在 Pixel 手机上进行的演示,用户在办公室里走来走去,根据实时视频,即兴向 Astra 提出问题。Gemini 正在观看和理解这些视觉内容,同时处理问题。在演示中,Gemini 知道扬声器的特定部分是什么,甚至能够识别伦敦的一个街区。Gemini 还具有生成性,因为Gemini 快速为一个玩具旁边的可爱小狗创造了一个乐队名称(请参阅上面的视频)。
虽然Gemini 不会立即推出,但开发人员和像我们在 TechRadar 的媒体将有机会在 2024 年的 I/O 上试用。虽然谷歌没有明确说明,但有关 Astra 眼镜的预告片出现了,这可能意味着谷歌眼镜可能会再次回归。
- 什么时候推出?目前未知——谷歌将其描述为“我们对人工智能助手未来的期望”
2. Google Photos 得到了 Gemini 的人工智能帮助
图片来自于@Google ,版权属于原作者
我真的很想知道这是 Google 员工的亲生孩子还是Gemini生成的孩子......
你是否曾经想快速找到在遥远的过去某个时刻拍摄的特定照片?也许是亲人的便条、狗小时候的早期照片,甚至是你的车牌。好吧,谷歌正在通过对谷歌照片的重大更新将其与Gemini融合在一起,使这个愿望成为现实。这使它可以访问你的相册,进行搜索,并轻松找到你正在寻找的东西。
在演示中,Sundar Pichai 透露,你可以向它索要你的车牌,照片将提供一张图像,显示车牌以及构成你车牌的数字/字符。又比如,你可以提供的孩子学会游泳时的照片以及更多细节。Gemini都能快速的搜索出来。
谷歌将此功能称为“询问照片(Ask Photos)”,并将在“未来几周”内向所有用户推出。
- 什么时候推出?据谷歌称, “在未来几个月”作为一项实验性功能
3. 借助 NotebookLM,让孩子的家庭作业变得更加轻松
让“吼”作业不再痛苦,你不用再为了辅导孩子功课而疯狂的学习,Google通过其 NotebookLM 笔记应用程序的升级帮你辅导作业。
NotebookLM 现在可以访问 Gemini 1.5 Pro,并且根据 I/O 2024 上提供的演示,Gemini将成为更好的老师。演示中,谷歌的乔什·伍德沃德(Josh Woodward)正在加载一个笔记本,里面写满了有关学习主题(在本例中为科学)的笔记。只需按一下按钮,Gemini就可以创建详细的学习指南,并提供进一步的输出,包括测验和常见问题解答,所有这些都来自用户提供的源材料。
还有更好的一项新功能(目前仍是原型)能够将所有内容输出为音频,本质上是创建播客风格的讨论。更重要的是,音频中有不止一个发言者,Gemini以一种自然的方式谈论这个话题,并且永远都不会发火,母慈子孝,指日可待。
伍德沃德甚至能够打断并提出问题,——此时Gemini改变了策略,并实时进入新问题的解答。 TechRadar 团队的家长们都迫不及待地想尝试一下这个新功能。
- 什么时候推出?目前未知
4.你很快就可以通过视频搜索Google
你现在可以录制视频并搜索它以获取结果,比如谷歌员工想知道如何使用电唱机;她一边询问一些事情,一边录制有问题的视频,然后开始搜索,Googleg不仅完成了搜索还以文本形式提供了答案,还可以以音频方式回答。这是一种全新的搜索方式,就像用于视频的谷歌眼镜(Google Lens)一样,也与即将推出的 Project Astra 日常人工智能明显不同,因为这需要记录然后搜索,而不是实时工作。
尽管如此,它仍然是 Gemini 和生成式人工智能与 Google 搜索融合的一部分。
简而言之,谷歌正在全力以赴地利用生成式人工智能进行搜索,无论是搜索结果还是获取结果的各种方式。
- 什么时候推出?谷歌表示,“美国搜索实验室的英语用户将很快可以使用视频搜索功能”,并将“随着时间的推移扩展到更多地区”
5. 谷歌利用其 Veo 视频工具挑战 OpenAI 的 Sora
在过去的几个月里,我们一直对OpenAI的文本转视频工具 Sora的创造感到惊叹,现在谷歌正以其名为 Veo 的新工具加入生成视频。与 Sora 一样,Veo 可以通过简单的提示生成 1080p 质量的一分钟长的视频。
该提示可以包括电影效果,例如延时拍摄或空中拍摄的请求, 早期的样本看起来令人印象深刻。你可以使用命令上传输入视频,Veo 可以编辑剪辑以满足你的要求。还可以选择添加蒙版并调整视频的特定部分。
但是,与 Sora 一样,Veo 尚未广泛使用。谷歌表示,“在未来几周内”,部分创作者将可以通过其实验室实验功能之一的 VideoFX 来使用。我们可能还需要一段时间才能看到广泛的推出,但谷歌已承诺将该功能引入YouTube Shorts 和其他应用程序。这将使Adobe在人工智能的赛道上寝食难安。
- 什么时候推出?你现在可以加入 Veo 等候名单中,Google 表示它将“可供选择在 VideoFX 中进行私人预览的创作者”。谷歌还表示,“未来,我们还将把 Veo 的一些功能带到 YouTube Shorts 等产品中”
6. Android 得到了 Gemini 的大力注入
就像 Google 的“循环搜索”功能位于应用程序之上一样,Gemini 现在正在集成到 Android 的核心中。如图所示,Gemini 现在可以查看、阅读和理解手机屏幕上的内容,它可以预测你正在查看内容可能出现的问题。
除了在系统级别集成 Gemini 之外,具有多模态功能的 Gemini Nano 将于今年晚些时候在 Pixel 设备上推出。它将带来什么?嗯,它应该会加快处理速度,但目前具有里程碑意义的功能是 Gemini 监听电话,并能够在垃圾邮件时实时提醒你。这很棒,并且建立在呼叫筛选之上,这是 Pixel 手机的一项长期功能。它有望更快地在设备上处理更多内容,而不是将其发送到云端。
- 什么时候推出?谷歌表示,“具有多模态功能的 Gemini Nano”将于“今年晚些时候在 Pixel 上推出”。 Circle to Search 改进和新的电话银行诈骗功能也将在“今年晚些时候”推出
7. Google Workspace 将变得更加智能
打工狗的福音!在“邮件”中,借助左侧的新侧面板,你可以要求 Gemini 总结最近与同事的所有对话。然后用突出显示最重要方面的要点对结果进行总结。
Google Meet 中的 Gemini 可以为你提供会议的亮点或通话中其他人可能会问的问题。你将不再需要在通话期间做笔记,尤其是通话时间较长的时候这个功能很有用。在 Google Sheets 中,Gemini 可以帮助理解数据并处理请求,例如提取特定的总和或数据集。
虚拟队友“Chip”可能是最具未来感的例子。它可以存在于 G-chat 中并被调用以执行各种任务或查询。虽然这些工具可能会首先通过实验室进入 Workspace,但剩下的问题是它们何时会面向普通 Gmail 和 Drive 客户推出。考虑到谷歌为所有人提供人工智能的方法以及在搜索方面的大力推动,这可能只是时间问题。
- 什么时候推出? Gmail、Docs、Drive、Slides 和 Sheets 中的 Gemini 侧面板将“从今天开始”(5 月 14 日)升级至 Gemini 1.5 Pro。对于 Gmail 应用程序,“汇总电子邮件”功能将在“本月”(五月)向 Workspace Labs 用户提供,并在“下个月”向 Workspace 客户和 Google One AI Premium 订阅者的 Gemini 提供。
总之,谷歌希望能够将人工智能融入你的日常生活,帮助你制定日程、寻找丢失的物品以及我们如何与他人互动。
那么,问题来了,AI会最终取代人类吗?是不是不久的将来我们都将过上瓦力的生活?
来源:techradar 封面 TheStreet· Getty Images