科技资讯

Patchscopes是一个新兴的框架,旨在通过利用大型语言模型(LLMs)自身的语言能力,来统一和解释其内部工作机制的各种先前方法。该框架通过自然语言解释模型内部隐藏的表示方式,提供了直观的理解。

随着大型语言模型的显著进步,人们对其准确性和透明度的担忧也日益增加,因此理解这些模型的工作机制变得尤为重要,尤其是在模型出现错误的情况下。通过探索机器学习模型如何表示其所学习到的内容(即模型的隐藏表示),我们可以更好地控制模型的行为,并深入科学地了解这些模型的实际工作方式。这一点随着深度神经网络的复杂性和规模的增长而变得越来越重要。最近在可解释性研究方面的进展,展示了使用LLMs来解释另一个模型…

生成式人工智能(Generative AI)引发了一系列前所未有的创新浪潮。这项技术使我们能够与对话式人工智能进行交流、生成逼真的图像,并通过简单的提示来准确总结大量文档。截至目前,Llama模型已超过1亿次下载,这些创新很大程度上得益于开放模型的推广。

为了推动这一创新浪潮的安全发展,建立信任至关重要,这需要在负责任的人工智能方面进行更多的研究和贡献。开发者不能孤立地面对人工智能的挑战,因此我们希望营造一个开放、共享的环境,创建一个开放信任和安全的中心。

今天,我们宣布推出Purple Llama项目,这是一个旨在随着时间推移,整合工具和评估,帮助社区以开放的生成式AI模型负责任地构建的…

百度创始人、董事长兼CEO李彦宏在近期一次内部讲话中就当前AI领域的几个热议话题分享了自己的观点。针对“大模型开源还是闭源”的问题,李彦宏解释了百度选择不开源的原因。他认为,市场上已经存在足够多的开源大模型,如国际上的Llama、Mistral和国内的智源、百川、阿里通义等,因此百度开源与否对市场影响不大。此外,他强调闭源模型能够在能力上持续领先,并且不需要维护额外的开源版本,这对百度而言更加经济高效。

李彦宏还指出,模型开源并不如Linux、安卓等软件开源那样能带来集体进步的效应,因为开源模型往往是在小规模和零散的方式下进行验证应用,而没有经过大规模算力的检验。他进一步阐述,闭源模型具备真…

斯坦福大学人类与AI合作研究所(HAI)最近发布了2023年的人工智能指数报告,这份长达400页的报告通过详尽的数据分析和精心设计的可视化图表,全面审视了人工智能行业的发展状况。报告指出,自2014年以来,产业界在AI发展上已经超越了学术界,到2022年,产业界推出的机器学习模型数量是学术界的10倍以上。这主要是由于创造先进AI系统越来越依赖于大量数据、强大计算能力和充足的资金,而这些正是产业界相对于学术界和非营利组织的优势所在。报告还提到,AI系统在传统基准测试中的表现虽然仍在刷新纪录,但年度改进的幅度却在缩小,性能提升的极限正在加快到来。为了更全面地评估AI性能,出现了如BIG-bench…

澜舟科技的Mengzi3-13B模型已经正式在始智AI的wisemodel.cn开源社区平台上进行发布,并且对学术研究界完全开放使用,同时也支持免费的商业用途。该模型采用了Llama架构,并且选用了来自网页、百科、社交媒体、媒体和新闻等多种渠道的高质量语料,以及一些精选的开源数据集作为训练材料。Mengzi3-13B模型在进行多语言的语料训练时,特别针对万亿级别的tokens进行了深入学习,从而在中文处理能力方面表现卓越,同时也具备了良好的多语言处理能力。在参数量不超过20B的轻量化大型模型中,Mengzi3-13B因其在中英文语言处理方面的出色表现而独树一帜,它不仅具有很高的实用性,而且性价…