谷歌全面备战ing。
作者|武静静
当地时间 5 月 10 日上午,2023年Google I/O开发者大会如期到来。如市场期待的那样,这次大会上,谷歌发布了新版本的大模型,并将其融合进了Gmail、搜索、Pixel等一系列产品中。
(相关资料图)
这更像是一场对微软和Open AI的全面反击战,从大模型、应用到整个生态布局,新的战役打响了。
“作为 AI-first 公司,谷歌已经走了七年,我们正处于一个激动人心的转折点。我们有机会让 AI 对人类、企业、社区和每个人更有帮助。”谷歌首席执行官桑达尔・皮查伊 (Sundar Pichai) 说:“借助生成式 AI,我们正在迈出下一步,重构包括搜索以内的所有的核心产品。”
1.PaLM 2亮相
新亮相的一系列产品中最吸精的莫过于新的大语言模型 PaLM 2 。
这是谷歌去年推出的大语言模型 PaLM 的进阶版。2022年4月,谷歌推出了 PaLM ,参数规模为5400亿,此前谷歌已经开放了 PaLM 的API。
新版本的 PaLM 2主要在语言丰富度、推理能力、代码能力上比上一个版本有了提升:
多语言性: PaLM 2 在多语言文本方面接受了更多的训练,涵盖 100 多种语言。在理解、生成和翻译细微差别文本 (包括成语、诗歌和谜语) 的能力上表现更好。PaLM 2 还通过了“精通”级别的高级语言能力考试。 推理: PaLM 2 的广泛数据集包括科学论文和数学相关信息。在逻辑、常识推理和数学方面表现更好了。 编码: PaLM 2 在大量公开可用的源代码数据集上进行了预训练。它擅长 Python 和 JavaScript 等流行的编程语言,也可以生成 Prolog、Fortran 和 Verilog 等语言的专用代码。PaLM 2按照规模大小分为四种规格,从小到大依次为Gecko、Otter、Bison和Unicorn,它们都依据特定领域的数据进行了微调,根据不同场景执行特定任务。
体积最小的Gecko可以在手机上运行,并且速度很快,每秒可处理20个标记,大约相当于16或17个单词,已经在“最新的手机上”运行。
针对特定的医疗场景,PaLM2有一个基于健康数据训练的版本Med-PaLM 2, 谷歌说 从和临床专家回答同一组问题的表现上来看,这是第一个在医学执照考试式问题上表现出“专家”水平的语言模型,也是目前最先进的。谷歌还在给 Med-PaLM 2 添加功能,比如在医学影像领域,它可以帮助放射科医生解释图像并传达结果。
此外,谷歌还发布了基于网络安全数据训练的版本Sec-PaLM 2,它可以解释潜在恶意脚本的行为,检测到代码中的威胁。
“PaLM 2 是我们以负责任的方式将 AI 带给数十亿人的十年旅程中的最新一步。它建立在两个世界级研究团队 Brain Team 和 DeepMind 取得的进展之上。”桑达尔・皮查伊说。
他还透露, Brain Team 和 DeepMind合并之后,新的 Google DeepMind已经在训练下一代基础模型 Gemini,这是一种多模态和高效的机器学习工具,经过微调和严格的安全测试后,Gemini 将像 PaLM 2 一样提供各种规格的产品和功能。
2.PaLM 2掀起的产品大改造运动
目前,PaLM 2已经应用在25种功能和产品中,包括办公软件、聊天机器人Bard、搜索等。同时,谷歌也宣布扩大全球访问范围,并结束了等候名单,用户终于不用等了。
谷歌发布了 新的生成式AI协作工具 Duet AI,它可以帮助进行文档写作,Gmail中的邮件写作辅助、幻灯片的图片生成、Meet的自动会议摘要等。此外 Duet AI还可以为 云服务用户辅助编程,补全上下文代码,提供变成建议,实时生成整个代码函数,以及协助进行代码审查和检查。
聊天机器人Bard已完全在 PaLM 2 上运行,其在高级数学和推理技能以及编码能力上已经有了提升,Bard 新推出了日语和韩语版本,谷歌宣布很快就会支持 40 种语言。新版的Bard更新后,具备图像功能、编码功能和应用程序集成。Google Lens已经接入Bard。使用 Google Lens,Bard可以在几秒之内分析照片、检测图片中信息并起草一些创意说明。
Bard还推出了新的导出功能,用户可以直接将回复转移到 Gmail 和 Docs中。用户只需单击“Gmail 中的草稿”按钮,就可以对内容进行调整。
谷歌透露,接下来,将会把Docs、Drive、Gmail、地图等办公产品的功能都集成到 Bard 体验中;也会和外部的各项产品进行扩展,比如将Adobe 的创意生成 AI 模型系列Adobe Firefly集成到 Bard 中,用户可以快速地将自己的创意转化为高质量的图像,然后进一步编辑或添加到Adobe Express中。
谷歌也公开了嵌入AI之后的新的搜索体验。
比如输入了“为什么酵母面包仍然如此受欢迎?” 并按下回车键后,在常规搜索结果的上方,会出现一段AI生成的摘要:描述了酵母的味道、益生元能力等。右侧会出现这些信息背后的站点链接。这种”溯源“行为本质上是为了减少AI在生成内容上的幻觉问题。
在搜索产品时,谷歌会提供需要考虑的重要因素和符合要求的产品以及产品说明,其中包括相关的最新评论、评级、价格和产品图片。谷歌称这种全新的生成式 AI 购物体验是建立在Shopping Graph之上的,该 Shopping Graph 拥有超过 350 亿个产品列表——使其成为世界上最全面的不断变化的产品、卖家、品牌、评论和库存数据集。
此外,谷歌还展示了大模型技术支撑下 Android 14 的新能力,在手机上,直接生成信息、图片都不在话下。
比如今年夏天谷歌会把Magic Compose 在默认短信应用 Message 中测试,借助这个AI 生成模型的工具,手机上直接自动根据聊天内容和语气生成短信回复内容。
这些应用产品之外,谷歌还推出了可以新的AI工具来鉴别信息,以及最新的3D视频会议系统Starline项目原型。
可以预见,这些动作之外,接下来,基于新的 PaLM 2 大模型,谷歌将会继续不断地推出更多新的应用和产品。
不同的生态和技术能力下,国际市场上,大模型战役正在愈演愈烈。
标签: