** xAI 宣布发布 Grok-2 和 Grok-2 mini 的测试版,这两款模型在聊天、编码和推理方面展现了前沿能力,并在 LMSYS 竞赛榜单上表现出色。**
xAI正式推出了 Grok-2 和 Grok-2 mini 的测试版,这两款模型分别作为 Grok-1.5 的大型和小型升级,在多项标准测试中展现了显著的提升。Grok-2 在 LMSYS 竞赛榜单上以 “sus-column-r” 的名义参赛,其 Elo 得分超越了 Claude 3.5 Sonnet 和 GPT-4-Turbo。
Grok-2 和 Grok-2 mini 目前处于 𝕏 平台的测试阶段,预计将于本月晚些…
AI 的危险在于,它让你跳过思考,让机器填补思想的空白。我们需要 AI 使我们增加思考,而不是减少思考。我们每外包一个想法,就会错失一次成长的机会。
随着微软、Facebook、Google和苹果等公司的AI技术融合,人们越来越依赖于机器来“填补思考的空缺”。然而,作者提出了一个问题:我们是否可以利用AI来更多地思考,而不是减少思考?
文章提出了一系列的方法来“颠倒”我们对AI的依赖,转而使用AI来激发更深层次的思考。例如,可以让ChatGPT提出问题来帮助我们阐明写作的初衷和想法,而不是直接向AI提问。
作者鼓励读者在使用AI生成的内容时,保持原创性,不要直接使用AI的文本,而…
OpenAI 正在测试一个名为 SearchGPT 的原型,旨在通过结合 AI 模型的强大功能与网络信息,为用户提供快速、及时且具有清晰和相关来源的答案。
SearchGPT 是 OpenAI 推出的一个新型 AI 搜索功能原型,目的是为了让用户能够更快捷、便捷地在网络上获取答案。该原型将直接以对话的形式回答用户的问题,并提供来自网络的最新信息,同时明确提供相关源的链接。用户可以进行后续问题的提问,AI 模型将在对话中保持上下文信息。
OpenAI 致力于与出版商和内容创作者合作,通过 AI 搜索高亮优质内容,同时为用户提供更多选择。SearchGPT 设计了直接引用和链接到出版商…
DeepMind 的 AI 系统 AlphaProof 和 AlphaGeometry 2 首次实现了解决国际数学奥林匹克(IMO)问题的银牌水平,解决了四个出题。
DeepMind 宣布其人工智能系统 AlphaProof 和 AlphaGeometry 2 在国际数学奥林匹克(IMO)问题上的突破。AlphaProof 系统通过自我训练来证明数学陈述,它结合了预训练的语言模型和 AlphaZero 强化学习算法。AlphaGeometry 2 是一个改进的神经象征混合系统,用于解决几何问题。这两个系统在 IMO 2024 的问题上得分 28 分,相当于银牌水平。DeepMind…
安德烈·卡帕蒂(Andrej Karpathy)宣布成立了一个名为Eureka Labs的AI+教育公司,旨在构建一个与AI原生相结合的新型学校,通过生成AI辅助的课程材料,提供理想的学习体验。
安德烈·卡帕蒂宣布他将全职致力于他的新创立的公司Eureka Labs,该公司专注于AI与教育的结合。他认为,通过AI辅助的课程材料,可以弥补专家教师的不足,为学生提供一个类似与费曼级别的指导的学习体验。卡帕蒂强调,他们的目标是让任何人都能轻松学习任何东西,从而扩大教育的覆盖范围和深度。
Eureka Labs的首个产品是LLM101n,一门大学水平的课程,将指导学生通过自己训练AI。卡…
SEED-Story 包括与文本内容一致的图像,并且提供了用于训练和评估的大规模数据集 StoryStream。
SEED-Story 是一个多模态长故事生成模型,它能够根据用户提供的图像和文本生成包含连贯叙事和一致的角色与风格图像的故事。该模型基于 SEED-X,并且可以通过不同的开头文本生成不同的故事。SEED-Story 的训练分为三个阶段:第一阶段是使用 ViT 特征作为输入预训练 SD-XL 的去 tokenizer;第二阶段是通过下一个单词预测和目标图像的 ViT 特征之间的图像特征回归来训练 MLLM;第三阶段是将 MLLM 回归的图像特征输入去 tokenizer …
随着生成性人工智能(GenAI)应用的爆炸性增长,开发者和投资者开始关注如何利用先进技术为最终用户提供服务。这一趋势得益于过去24个月内行业建立的平台基础设施的改进,它简化了托管、微调、数据加载和内存管理等操作。然而,由于AI代理的快速发展,很少有假设能够长时间保持有效。AI代理作为自主执行多步任务的实体,正在成为开发者构建应用的核心抽象。这促进了更快的应用开发速度,并为平台层创造了新的机会。
AI代理的出现进一步加速了应用的构建速度,并对基础设施提出了新的要求。目前,代理的最佳表现依赖于高度定制,开发者正在努力将这些技术应用于其当前状态下的适用场景。尽管存在限制,如错误率、管理需求、带宽、…
OpenAI与洛斯阿拉莫斯国家实验室(LANL)正在合作研究人工智能在生物科学研究中的安全应用。这一合作旨在评估前沿AI模型的能力,特别是在实验室物理环境中,通过多模态能力如视觉和语音协助科学家完成任务。
这项合作遵循了白宫的一项行政命令,要求能源部国家实验室帮助评估前沿AI模型的能力。
OpenAI已经在医疗领域展现了其技术的应用,例如Moderna使用OpenAI的技术来辅助临床试验的数据分析,而Color Health则利用GPT-4o构建了一个辅助医疗提供者做出基于证据的决策的副驾驶。
OpenAI和LANL的评估研究将是首次考虑AI生物安全评估的实验,它将基于OpenAI关于生…
本文分享了在过去一年中使用大型语言模型(LLMs)进行产品开发的经验教训,涵盖了从实战技巧、日常运营到战略规划的各个方面。
在过去的一年里,大型语言模型(LLMs)已经成为实际应用中的一个重要工具。随着LLMs的不断改进和成本的降低,预计到2025年将有2000亿美元的投资。
LLMs的API使得它们更加易于访问,允许非机器学习工程师和科学家也能够将智能功能融入到他们的产品中。尽管进入门槛降低,但构建有效且超越示例的产品仍然具有挑战性。
作者分享了以下几个方面的经验:
苹果公司在人工智能领域倡导了一种与AI极大主义相对立的策略,认为生成式AI应该作为基础设施而非平台或产品,强调将AI集成到设备中,以提供新的功能和能力。
苹果公司即将推出的人工智能功能,预计将在秋季分阶段推出,但只能在支持本地处理的iPhone 15 Pro上使用。这些功能包括大型语言模型(LLM),但不提供直接与模型交互的聊天机器人。苹果的策略是将AI作为技术嵌入到系统中,利用设备上的用户上下文来提供个性化的功能,而不是作为一个全能的解决方案。苹果的模型将不会像Gemini那样提供不合理的建议,因为它们不会回答开放式问题,而是通过特定的功能和按钮来实现用户的请求。
苹果区分了“…