2026/5/24 0:50:31
网站建设
项目流程
建设网站方法有哪些内容,新中式家具,263企业邮箱自动回复,新媒体营销图片谷歌继续发力。
这一次#xff0c;是语音。
打开最新版 Google Translate App#xff0c;连上任意耳机#xff0c;点一下 Live translate#xff0c;对着说话的人。
Bingo#xff0c;你就拥有了一个支持 70 多种语言的「同声传译器」。 更牛逼的是#xff0c;它不挑。…谷歌继续发力。这一次是语音。打开最新版Google TranslateApp连上任意耳机点一下Live translate对着说话的人。Bingo你就拥有了一个支持 70 多种语言的「同声传译器」。更牛逼的是它不挑。不需要翻译器这样的专业设备你手上的任何耳机都行。而且它不是那种冷冰冰的“机翻”。翻译出来的声音会保留说话者的语调、节奏甚至是情绪起伏。你甚至能分辨出是谁在说话。出国旅游、外语电影、国外餐厅点菜一副耳机就都解决了。目前这个功能还是 beta只在安卓 App面向美国、墨西哥和印度用户开启测试。iOS 和更多地区要等明年了。划重点这里的地区意思是你谷歌账号所在的地区。01背后的功臣Gemini 2.5 Flash Native Audio实时翻译背后的功臣是谷歌刚刚更新的模型Gemini 2.5 Flash Native Audio。见名知意它是一个原生语音模型。ComplexFuncBench Audio专门测试语音 AI 在实时对话中调用外部工具的能力。在这个基准中新版 Gemini 准确率 71.5%。作为对比OpenAI 的gpt-realtime是 66.5%。在真实对话中这意味着 AI 能更准确地判断什么时候该去查信息、查什么以及查完还能自然地融入对话里不出现尴尬停顿。指令遵循率也提升了从 84% 到 90%。以前给 AI 设定规则它有 16% 的概率会忘记或理解错。现在好多了。多轮对话质量更是从 62% 上涨到了 83%。新版 Gemini 能更好地记住之前聊过什么。一句话总结Gemini 2.5 Flash Native Audio变得更靠谱了。02Shopify 这样说Shopify全球最大的独立电商建站平台服务数百万商家。它们用这个模型做了个助手叫 Sidekick。Shopify 产品副总裁 David Wurtz 这样评价「用户在使用 Sidekick 一分钟内就忘记自己在和 AI 说话有些人在长对话结束后甚至会对机器人说谢谢。」说谢谢。对一个 AI。这可能才是语音 AI 真正的转折点。不是跑分第一而是普通用户开始分不清自己在和人还是 AI 对话。03已经有公司在用它赚钱了除了 Shopify还有两个案例。卖房子的 United Wholesale Mortgage 把这个模型集成到他们的 AI 助手 Mia 里。结果Mia 已经帮经纪人搞定了超过 14000 笔贷款。Newo.ai 用它做 AI 前台客服。他们说这个模型能在嘈杂环境中识别出主要说话者能在对话中途切换语言。听起来「非常自然和富有情感」。低延迟、高情商的语音 AI已经是生产力了。04现在就能用还是你们熟悉的老朋友谷歌 AI Studio。打开 AI Studio左侧菜单栏里点Playground中间选择Live。继续点击那个带有「New」标识的Gemini 2.5 Flash Native Audio。你就可以嗨起来了完全免费。API 现在也能用preview 预览版。模型名gemini-2.5-flash-native-audio-preview-12-2025。另外Gemini 2.5 Flash和Gemini 2.5 Pro的 TTS 模型也更新了但更推荐这个实时语音。练口语、语音助手、客服机器人可以冲了。结语用户忘记自己在和 AI 说话这可能才是语音 AI 模型的最高境界。我是木易一个专注 AI 领域的技术产品经理国内 Top2 本科 美国 Top10 CS 硕士。相信 AI 是普通人的“外挂”致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。欢迎关注“AI信息Gap”用 AI 为你的未来加速。精选推荐