20240918 一周科技新闻速递

9/18/2024

https://www.chatbro.cn/news/66ea31ae13764f98b9c4f698

本周是AI和机器人领域的重要一周，众多公司发布了最新动态。

OpenAI发布“o1”模型：OpenAI正式推出了名为“o1”的模型，也称为Project Strawberry/Q*。这个模型通过强化学习和链式思维在回答之前进行“思考”，预示着与GPT-4完全不同的提示方式。
苹果推出iPhone 16的AI功能：苹果宣布了iPhone 16的Apple Intelligence功能，这将极大地推动消费者AI的普及。特别引人注目的是AI能够访问iPhone的相机，实现对周围环境的“视觉智能”。
Google DeepMind的机器人AI系统：Google DeepMind推出了两个新的AI系统ALOHA和DemoStart，旨在提升机器人的灵活性。这些系统使用与图像生成模型类似的扩散方法，从随机噪声中预测机器人的动作。
Carpentopod无线行走咖啡桌：Giliam de Carpentier制作了“Carpentopod”，一款可以通过定制电机控制软件和改装的Nunchuck控制器远程操作的无线行走木质咖啡桌。
谷歌的Audio Overviews功能：谷歌推出了Audio Overviews，这项新功能可以将笔记转化为两个虚拟AI代理之间的AI生成音频对话，为喜欢通过听觉学习的人提供了创新体验。
Adobe Firefly AI视频模型：Adobe预览了其Firefly AI视频模型，即将推出的三大关键功能包括文本生成视频、图像生成视频，以及生成性扩展，旨在为视频编辑开启“新时代”。
白宫AI数据中心基础设施工作组：白宫正在启动一个新的AI数据中心基础设施工作组，这表明美国的AI战略正在超越单纯的安全测试，积极构建维护美国在AI领域领先地位所需的基础设施。
谷歌DataGemma开源模型：谷歌推出了DataGemma，这是首个旨在将大语言模型与现实世界数据连接的开源模型。这些模型利用谷歌Data Commons的数据，旨在通过基于事实的统计数据来减少AI产生幻觉。
谷歌Ask Photos对话式照片搜索：谷歌还推出了Ask Photos，一种全新的对话式照片搜索方式，允许用户用简单的英文描述来搜索图片，由Gemini AI模型帮助找到。
Mistral的Pixtral 12B模型：法国AI初创公司Mistral发布了Pixtral 12B，这是一款能够处理图像和文本的多模态模型，拥有120亿参数，大小约为24GB，可通过Apache 2.0许可证免费下载。
Hume AI的Empathic Voice Interface 2 (EVI 2)：Hume AI推出了专为情感智能训练的语音到语音基础模型EVI 2，为情感智能领域带来新的可能性。
腾讯的GameGen-O模型：腾讯展示了GameGen-O，一款“开放世界视频游戏生成”模型，这是一个扩散式Transformer模型，能够生成可控的开放世界视频游戏画面。
Runway的Gen-3 Alpha视频到视频功能：Runway发布了Gen-3 Alpha视频到视频功能，现已在所有付费计划中上线。它允许用户通过文本提示，将现有或生成的视频即时转换为任何其他视频风格。