** 华盛顿大学研究团队开发了一种人工智能系统,可以让佩戴耳机的用户通过简短地看向某个说话的人来“注册”他们,之后系统能够实时取消环境中的其他声音,只放通所选说话者的声音,即使用户在嘈杂的环境中移动或不再面对说话者。**
这种名为“Target Speech Hearing”(TSH)的系统,是由华盛顿大学的研究团队开发的。用户只需佩戴带有麦克风的普通耳机,轻触按钮并向目标说话者方向转动头部几秒钟,系统便能识别并学习目标说话者的声音特征。
在实验中,21名测试者对于系统隔离出的目标声音的清晰度评价高出未经过滤的环境声音的平均水平近一倍。该系统目前只能一次性注册一个说话者,并且在注册过程中…
Anthropic公司报告了一项重大进展,成功解读了其部署的大型语言模型Claude Sonnet内部如何表示数百万个概念,这是对现代、生产级别大型语言模型内部工作机制的首次详细了解。
在2024年5月21日,Anthropic宣布对大型语言模型内部工作机制的深入理解。该公司成功识别了其中一款大型语言模型Claude Sonnet内部如何表示数百万个概念,这是对现代、生产级别大型语言模型内部的首次详细了解。
这一发现可能有助于未来提高AI模型的安全性。目前,AI模型通常被视为黑箱,其内部状态是一系列难以解释的神经元激活值。Anthropic通过“字典学习”技术,将这些神经元激活模…
李飞飞强调,无论参数多少,大模型都不具备主观感觉能力。
知名AI研究者李飞飞及其同事John Etchemendy教授在一篇文章中探讨了大模型是否具有感觉能力的问题。文章指出,尽管大型语言模型(LLMs)在多个方面表现出超人类智能,但它们并不具备感觉能力。李飞飞通过多个例子说明,LLMs只是能够产生文本序列,而不会真正体验到饥饿、疼痛等感觉,因为它们缺乏生理结构。她认为,LLMs的工作原理是基于概率性地完成任务,而不是基于主观经验。
文章还提到,有些人认为AI已经获得了感觉能力,因为它能够报告类似于主观经验的信息,但李飞飞和Etchemendy教授驳斥了这一观点…
这篇文章《Product-Led AI》由Seth Rosenberg撰写,探讨了技术新时代中,如何投资和构建以AI为主导的产品。文章中,作者表达了一种观点:尽管很多投资者热衷于支持当下的“铲子和镐头”类型的企业,如NVIDIA和基础模型公司,但更需要有人愿意冒险去创造能够改变人们工作与生活的AI产品。
Seth Rosenberg认为,成功将AI能力整合到受人们喜爱的产品中的创业者,将有机会捕获巨大的价值。他提到,任何时代最战略性的优势就是你的产品能与多个系统同存,并收集所有通过产品传递的数据。他举例了一些企业家,如Tome的Keith Peiris和Henri Liriani,以及Run…
谷歌在其年度软件会议上发布了其旗舰搜索引擎的全新愿景,该愿景特别针对生成式人工智能(AI)时代进行了定制。公司利用先进的技术,其搜索负责人利兹·里德(Liz Reid)在舞台上宣布,“谷歌将为你完成搜索工作”。
通常情况下,搜索某些内容很少能立即得到一个明确的答案。用户输入查询,面对一大堆蓝链接,打开多个标签页,然后浏览这些链接以找到最相关的信息。如果这不起作用,用户将重新提炼搜索条件并再次尝试。现在谷歌正在推出“人工智能概览”,这种功能可能会整理出一份按氛围分类(现场音乐、屋顶露台等)的达拉斯“值得纪念的”餐厅列表,搜索食谱网站以创建膳食计划,为陌生主题构建介绍等。
今天展示的其他生成式…
OpenAI 在 2024 年 5 月 13 日宣布了新的旗舰模型 GPT-4o,其中 “o” 代表 “omni”,意指全方位。GPT-4o 能够接受并生成文本、音频和图像的任意组合输入和输出,响应时间可低至 232 毫秒,平均为 320 毫秒,与人类对话的反应时间相当。该模型在文本、音频和视觉多模态处理方面取得了突破,特别是在非英语语言的文本处理和视觉、音频理解方面表现出色。GPT-4o 在传统基准测试上达到了与 GPT-4 Turbo 相当的文本、推理和编码智能水平,同时在多语言、音频和视觉能力方面创下了新的记录。此外,GPT-4o 的语言标记化能力显著提升,减少了多种语言的标记数量。
…
文章探讨了人工智能(AI)代理在自动化领域的作用及其对知识工作者和消费者生产力提升的潜力,分析了自动化平台的演进、AI在自动化中的角色、AI代理框架的发展、以及企业和构建者在部署和构建自动化解决方案时的考虑因素。
文章首先预测了AI助手的普及、人类在循环中的作用、自动化的复杂性、以及AI自动化的部署将遵循“爬行、行走、奔跑”的步骤。文章进一步探讨了自动化平台的演进,从早期的宏和工作流程自动化,到现在的机器人流程自动化(RPA)、iPaaS平台、低代码任务自动化平台以及垂直自动化方法。随后,文章分析了AI在企业自动化中的不同角色,包括RPA和任务自动化平台的当前状态,以及AI原生方法…
本文强调了大型语言模型(LLM)公司在技术上面临的搜索挑战,并预测了检索系统的未来发展趋势。
在计算机科学中,搜索被认为是最困难的技术问题之一,仅有少数产品如Google、Amazon和Instagram能够实现良好的搜索功能。随着大型语言模型(LLM)和支持它们的检索系统的爆炸性增长,每家LLM公司都需要内置世界级搜索功能,以确保其产品的正常运作。检索增强生成(RAG)系统通过向LLM提供相关信息来帮助其回应查询,这使得LLM的回答更加基于现实和相关的信息。即使新的LLM具有更长的上下文窗口,允许一次处理更大的输入,但检索系统在大多数应用中仍然不可或缺,因为它们能够处理多个文档版…
Isomorphic Labs 和 Google DeepMind 合作推出了 AlphaFold 3,这是一款能够预测生物分子结构和相互作用的人工智能模型,大幅提高了对蛋白质、DNA、RNA 以及药物分子等生命分子的理解,有望彻底改变生物学研究和药物发现。
AlphaFold 3 是由 Isomorphic Labs 和 Google DeepMind 开发的新一代人工智能模型,它能够以前所未有的准确性预测生命中所有分子的结构和相互作用。与现有的预测方法相比,AlphaFold 3 在预测蛋白质与其他分子类型的相互作用方面至少提高了 50%,对于一些重要的相互作用类别,预测准确性…
在与OpenAI的首席执行官Sam Altman的短暂交流中,他分享了关于人工智能(AI)未来发展的一些深刻见解。Altman认为,未来AI工具将比智能手机更深入地融入我们的日常生活。他向MIT技术评论描述了一个理想中的AI应用程序,即一个“超级能干的同事”,它了解用户的一切,包括每一封电子邮件和每一次对话,但并不像是用户的一部分。这样的AI能够迅速处理一些任务,对于更复杂的任务,它可以进行尝试,如果需要,还能回来向用户提出问题。
当前OpenAI的主要应用程序,如DALL-E、Sora和ChatGPT(Altman将其与即将推出的产品相比,称之为“非常愚蠢”),已经通过生成令人信服的文本和…