所在位置: 首页 > 资讯攻略 > 新闻资讯

苹果开发出新款AI:能"看懂"屏幕上内容并用语音回复

发布时间:2024-04-24 09:46:30作者:小编酱

苹果公司的研究团队最近发表了一篇论文,宣布他们成功开发了一种创新的人工智能系统。该系统可以准确理解屏幕上的模糊内容及其相关对话和背景环境,进而实现与语音助手更自然的交互。

该系统被命名为Realm(reference resolution as languagemodeling),通过使用大型语言模型将理解屏幕视觉元素方向的复杂任务转化为纯语言问题。与现有技术相比,这种转变使ReALM的性能显著提高。

苹果研究团队强调:“对话助手理解上下文非常重要,包括相关的内容导向。用户可以根据在屏幕上看到的内容提出问题,这是确保真实语音操作体验的重要一步。”

增强对话助手的能力

ReALM的一大创新在于它可以重构屏幕内容,即通过分析屏幕上的信息及其位置信息来生成文本表示,这对于捕捉视觉布局非常重要。研究人员表明,这种方法与专门针对内容导向的语言模型相结合,在执行相关任务时可以超过GPT-4的性能。

研究人员表示:“我们显著改进了现有系统,并在处理各种类型的内容指向方面表现出了出色的性能。我们最小型号的性能提高了5%以上,而大型型号的性能大大超过了GPT-4。”

实际应用和局限性

这项研究强调了专注于语言模型在处理面向内容的解析等任务方面的巨大潜力。由于响应时间或计算资源的限制,大规模的端到端模型往往难以实现。通过这项创新研究,苹果展示了其持续的投资,使Siri等产品在对话和理解上下文方面更好。

尽管如此,研究人员也指出,依靠自动化来分析屏幕内容仍面临挑战。当处理更复杂的视觉内容时,例如区分多个相似的图像,可能需要结合计算机视觉和多模态技术。

努力缩小与人工智能竞争对手的差距

尽管苹果在人工智能领域稍显落后,但它正在悄然取得显著进展。从融合视觉和语言的多模态模型,到开发AI驱动的动画工具,再到构建高性能专业AI技术,苹果研究实验室不断实现技术突破。

面对谷歌、微软、亚马逊和OpenAI等公司在搜索、办公软件和云服务领域推出先进人工智能产品的激烈竞争,作为一家以保密著称的科技巨头,苹果正在努力保持落后。

长期以来,苹果在创新领域扮演的更多是跟随者,而不是领导者,现在它面对的是一个被人工智能迅速改变的市场。在6月举行的全球开发者大会上,苹果预计将在其生态系统中推出新的大型语言模型框架、“苹果GPT”聊天机器人和其他人工智能功能。

“我们很高兴在今年晚些时候分享我们在人工智能方面的工作进展,”首席执行官蒂姆·库克在最近的一次盈利电话会议上暗示。尽管苹果一向低调,但其在AI领域的广泛努力引起了业界的广泛关注。

然而,在人工智能领域日益激烈的竞争中,苹果的相对滞后使其处于不利地位。但凭借强大的资金实力、品牌忠诚度、一流的工程师团队和紧密整合的产品线,苹果仍有机会扭转局面。

收藏

相关资讯

相关游戏

更多 >
  • 热门资讯
  • 最新资讯
  • 下载排行榜
  • 热门排行榜