科技资讯

Stability AI 发布了 Stability Audio 的技术论文，用 DiT 架构生成音乐

4/21/2024

近期，基于音频的音乐生成模型取得了显著进展，但迄今为止还未能生成具有连贯音乐结构的完整长度音乐曲目。本研究表明，通过对长期时间上下文进行训练，可以生成最长达到4分钟45秒的长篇音乐。我们的模型由一个扩散变换器组成，该变换器在一个高度下采样的连续潜在表示上操作（潜在速率为21.5赫兹）。根据音频质量和提示对齐度的指标，它获得了最先进的生成效果，并且主观测试表明，它能够产生具有连贯结构的完整长度音乐。…

arxiv.org

5亿个token之后，我们得出关于GPT的七条宝贵经验

4/21/2024

初创公司 Truss 的 CTO Ken Kantzer 分享了其公司使用大型语言模型（LLM）的经验，并总结出了七条宝贵经验：

Truss在过去六个月内发布了一些依赖于LLM的功能，在通过处理超过5亿个令牌后，我们发现LLM的现实应用与Hacker News上的讨论开始出现分歧。以下是我们从实际应用中得到的一些“令人惊讶”的教训。

首先，我们使用的是OpenAI模型，主要是GPT-4和GPT-3.5，并且只处理文本数据。作者提出了以下几点经验：

提示（prompts）的简洁性：作者发现，如果某些指令已经是常识，那么在提示中不过多列举具体列表或指令会产生更好的结果。这与编程中必须明…

kenkantzer.com

ScreenAI：用于 UI 和视觉语言理解的视觉语言模型

4/21/2024

Google 近期发布了一款名为ScreenAI的视觉-语言模型，它专门用于理解和交互用户界面（UI）和信息图表（如图表、图解和表格），并在基于UI和信息图表的任务上取得了行业领先的成果。该模型的发布伴随着三个新数据集的推出：Screen Annotation（用于评估模型布局理解能力）、ScreenQA Short（短问答）和Complex ScreenQA（复杂问答），这些数据集旨在更全面地评估模型的问答能力。

用户界面和信息图表在人际交流和人机交互中扮演着重要角色，它们通过丰富和互动的用户体验促进了信息的传递。UI和信息图表共享类似的设计原则和视觉语言（例如图标和布局），这提供了构建一…

research.google

扎克伯格两万字专访：Meta AI 未来将是数亿人的 Agent 平台！多模态重点关注视频、3D 内容以及情感理解

4/20/2024

在采访中，Meta的CEO扎克伯格与海外媒体人Dwarkesh Patel就AI技术、Llama模型、Meta AI、以及元宇宙等话题进行了深入的探讨。

首先，扎克伯格介绍了Meta新发布的Llama 3模型，该模型包含80亿参数、700亿参数和4050亿参数三个版本，这些模型将推动Meta AI的发展。Meta AI结合了Google和Bing的实时知识检索功能，并在辅助功能、VR中得到应用，将在未来几个月内推出更多新功能。扎克伯格特别强调了开源对于社区和创新的贡献，并讨论了AI能力的质变可能带来的开源风险。

扎克伯格还提到了Llama 4模型的可能性、在定制芯片上训练Llama模型的计…

mp.weixin.qq.com

人工智能引领服务即软件的范式转变

4/20/2024

过去几十年的自动化主要关注于提高效率，即机器帮助人类加快完成各种任务。当前十年，借助人工智能（AI）的推动，效率将实现飞跃性的进步，同时也会更加复杂。过去，软件仅仅是数字化和增强了人类的工作与服务，但在2.0版本的自动化中，机器人将成为“大脑”。

人工智能公司正在引领从“软件即服务（SaaS）”向“服务即软件”的转型，颠覆了SaaS的核心理念。在软件业务中，公司可能会出售对其平台或工具的访问权，但客户仍需使用这些工具来实现期望的结果。而在服务业务中，实现期望结果的责任则落在提供服务的公司身上。例如，不再提供QuickBooks软件，而是提供由AI会计师执行的税务服务。这一变化的积极面是巨大的…

foundationcapital.com

Stable Diffusion 3 API 发布

4/19/2024

Stability AI 开发者平台 API 现已推出 Stable Diffusion 3 和 Stable Diffusion 3 Turbo 两款新模型。为了提供这些模型，Stability AI 与市场中最快速、最可靠的 API 平台 Fireworks AI 合作。Stable Diffusion 3 模型在其研究论文中表明，基于人类偏好评估，在排版和提示遵循度方面，其性能等同于甚至超过了其他先进文本到图像生成系统，如 DALL-E 3 和 Midjourney v6。

新款模型采用了多模态扩散变换器（Multimodal Diffusion Transformer，MMDiT）架…

stability.ai

多模态能力超越 Claude3 Opus 的大模型 Reka Core 发布

4/19/2024

Reka公司推出了迄今为止最大和功能最强大的模型——Reka Core。这是一款行业领先的多模态语言模型，与OpenAI、Anthropic和Google等业内领先的模型相媲美。Reka Core在几个月的时间内，使用数千个GPU从零开始高效训练而成。

性能亮点包括：Reka Core在多模态人类评估中的表现超过了Claude-3 Opus，在视频任务中超过了Gemini Ultra，在语言任务上则与其他前沿模型在公认的基准测试中具有竞争力。此外，Reka Core在MMMU上与GPT-4V相当，提供了出色的性价比。

Reka Core具备以下能力：

多模态（图像和视频）理解：Rek…

www.reka.ai

有史以来最强大的开源大模型 Llama3 发布

4/19/2024

近期，Meta发布了两款新的大型语言模型，分别为8B（80亿参数）和70B（700亿参数）的版本。这些模型带来了新功能，显著提升了推理能力，并在行业基准测试中展示了领先性能。8B参数模型在评测中超过了Gemma-7B和Mistral-7B版本，而Llama 3 70B版本同样在许多评测指标上超越了Gemini 1.5 Pro和Claude 3 Sonnet。

Meta计划在未来几个月内推出更多新功能，包括更长的上下文窗口、更多的模型尺寸选择以及更强大的性能。同时，Meta还将分享Llama 3的研究论文。此外，Meta AI已经正式发布，并将在Instagram、WhatsApp、Messe…

llama.meta.com

《大语言模型》中文版发布

4/18/2024

2022年底，ChatGPT的推出标志着大语言模型技术的显著进步，这一技术的发展历经了统计语言模型、神经网络语言模型、预训练语言模型等阶段。OpenAI公司在这一领域扮演了重要角色，推出了引领技术变革的GPT系列模型。尽管GPT-3之后的技术细节不甚透明，但科研人员对于探索大语言模型的复杂性和挑战充满热情。大模型训练的难度在于其所需资源多、参数众多、组件复杂，以及缺少第一手经验的困难。

尽管面临挑战，学术界和工业界对于开放和共享的认识在不断增强，这有助于推动大模型技术的透明化。当前，大模型技术的研发主要源自工业界，并且随着时间的推移，这一趋势可能更为明显。对于科研人员而言，接触技术核心并理解…

llmbook-zh.github.io

纽约时报对Anthropic CEO 一个半小时的采访

4/18/2024

在2018年，Dario Amodei 还在 OpenAI 工作时，他开始探索随着数据量的增加，人工智能系统会经历怎样的变化。他发现，AI的能力并非线性增长，而是以指数级的速度提升。起初增长缓慢，随后迅速增加，形成了所谓的“曲棍球杆效应”。如今，Amodei 已经成为他的AI公司 Anthropic 的CEO，其公司推出的 Claude 3 AI 模型被认为是目前市场上最强大的。Amodei 认为AI正遵循规模法则，沿着指数增长的曲线前进，我们正处于这一曲线的快速上升阶段。

Amodei 在与AI开发者交流时发现，之前认为遥不可及的科技愿景在两年内就有可能实现。他在节目中分享了对未来技术突破…

www.youtube.com

« 上一页 1 2 3 4 5 678 9 下一页 »