20240918 一周科技新闻速递
本周是AI和机器人领域的重要一周,众多公司发布了最新动态。
-
OpenAI发布“o1”模型:OpenAI正式推出了名为“o1”的模型,也称为Project Strawberry/Q*。这个模型通过强化学习和链式思维在回答之前进行“思考”,预示着与GPT-4完全不同的提示方式。
-
苹果推出iPhone 16的AI功能:苹果宣布了iPhone 16的Apple Intelligence功能,这将极大地推动消费者AI的普及。特别引人注目的是AI能够访问iPhone的相机,实现对周围环境的“视觉智能”。
-
Google DeepMind的机器人AI系统:Google DeepMind推出了两个新的AI系统ALOHA和DemoStart,旨在提升机器人的灵活性。这些系统使用与图像生成模型类似的扩散方法,从随机噪声中预测机器人的动作。
-
Carpentopod无线行走咖啡桌:Giliam de Carpentier制作了“Carpentopod”,一款可以通过定制电机控制软件和改装的Nunchuck控制器远程操作的无线行走木质咖啡桌。
-
谷歌的Audio Overviews功能:谷歌推出了Audio Overviews,这项新功能可以将笔记转化为两个虚拟AI代理之间的AI生成音频对话,为喜欢通过听觉学习的人提供了创新体验。
-
Adobe Firefly AI视频模型:Adobe预览了其Firefly AI视频模型,即将推出的三大关键功能包括文本生成视频、图像生成视频,以及生成性扩展,旨在为视频编辑开启“新时代”。
-
白宫AI数据中心基础设施工作组:白宫正在启动一个新的AI数据中心基础设施工作组,这表明美国的AI战略正在超越单纯的安全测试,积极构建维护美国在AI领域领先地位所需的基础设施。
-
谷歌DataGemma开源模型:谷歌推出了DataGemma,这是首个旨在将大语言模型与现实世界数据连接的开源模型。这些模型利用谷歌Data Commons的数据,旨在通过基于事实的统计数据来减少AI产生幻觉。
-
谷歌Ask Photos对话式照片搜索:谷歌还推出了Ask Photos,一种全新的对话式照片搜索方式,允许用户用简单的英文描述来搜索图片,由Gemini AI模型帮助找到。
-
Mistral的Pixtral 12B模型:法国AI初创公司Mistral发布了Pixtral 12B,这是一款能够处理图像和文本的多模态模型,拥有120亿参数,大小约为24GB,可通过Apache 2.0许可证免费下载。
-
Hume AI的Empathic Voice Interface 2 (EVI 2):Hume AI推出了专为情感智能训练的语音到语音基础模型EVI 2,为情感智能领域带来新的可能性。
-
腾讯的GameGen-O模型:腾讯展示了GameGen-O,一款“开放世界视频游戏生成”模型,这是一个扩散式Transformer模型,能够生成可控的开放世界视频游戏画面。
-
Runway的Gen-3 Alpha视频到视频功能:Runway发布了Gen-3 Alpha视频到视频功能,现已在所有付费计划中上线。它允许用户通过文本提示,将现有或生成的视频即时转换为任何其他视频风格。