艾伦人工智能研究所正在开发针对科学优化的大型语言模型OLMo
转载于ScienceAI公众号
编辑|绿萝
最近,生成式人工智能和大型语言模型(LLM)的大火。
从初创公司到企业巨头,每个人都竞相尽快进入市场,以免被落在后面。
不幸的是,这引发了一些问题和担忧,很大程度上是因为这些公司使用的语言模型既不透明也不完全理解。
西雅图的艾伦人工智能研究所(AI2)正在努力改变这一状况。
近日,AI2宣布正在创建一个名为AI2 OLMo(开放语言模型)的开放生成语言模型。它将与其他最先进的LLM相媲美,预计将于2024年初首次亮相。
AI2 的目标是协作构建世界上最好的开放语言模型。OLMo背后的理念是,通过为数百万希望更好地理解和使用语言模型的人提供访问权限,他们可以创造一个环境,让每个人都能更快、更安全地取得进步。
该计划的独特之处在于它将开发一个「由科学家,为科学家服务」的开放语言模型。
「考虑到科学界,OLMo将专门用于推进语言模型科学,」OLMo项目负责人兼AI2 NLP研究高级主管Hannaneh Hajishirzi说。「OLMo将是第一个专门为科学理解和发现而设计的语言模型。」
该计划将通过提供对模型各个方面(包括其开发、实施和使用)的访问和教育,使研究界和公众受益。此外,开放模型正在与AMD和CSC合作开发,使用世界上最环保的超级计算机之一LUMI。
「OLMo将是一些特别的东西,」Noah Smith说,他也是OLMo项目负责人和AI2的NLP研究高级总监。
Smith 补充道:「在许多人急于从生成语言模型的商业潜力中获利的情况下,AI2具有独特的能力,可以将我们世界一流的专业知识与AMD和LUMI的世界一流硬件结合起来,为科学家和研究人员提供专门设计的产品,供他们参与、学习,并用于创造下一代安全、有效的人工智能技术。」
Hannaneh Hajishirzi (左)和Noah Smith(右)。(来源:AI2)
AI2 将OLMo视为一个平台,而不仅仅是一个模型,一个允许研究社区获取AI2创建的每个组件并自己使用或寻求改进的平台。Hajishirzi说,AI2为OLMo所做的一切都将公开可用,包括公共演示、训练数据集和API,并在「适当」许可下记录「非常有限」的例外情况。
Hajishirzi 说:「我们正在构建OLMo,以便为AI研究社区创造更多直接在语言模型上工作的机会。我们相信OLMo各方面的广泛可用性将使研究社区能够利用我们正在创造的东西并努力改进它。我们的最终目标是合作构建世界上最好的开放语言模型。」
AI2 的NLP研究高级主管Noah Smith表示,OLMo的另一个差异化因素是专注于使模型能够更好地利用和理解教科书和学术论文,而不是代码。在这方面还有其他尝试,比如Meta臭名昭著的Galactica 模型。但Hajishirzi认为,AI2在学术界的工作及其为研究开发的工具,如Semantic Scholar,将有助于使OLMo「特别适合」科学和学术应用。
「我们相信OLMo有潜力成为该领域真正特别的东西,特别是在许多人急于从对生成人工智能模型的兴趣中获利的环境中,」Smith说。「AI2作为第三方专家的独特能力让我们有机会不仅可以利用我们自己的世界级专业知识,还可以与业内最强大的人才合作。因此,我们认为我们严格的、有记录的方法将为构建下一代安全、有效的人工智能技术奠定基础。」
可以肯定的是,这是一种很好的情绪。但是,围绕训练和发布生成人工智能的棘手伦理和法律问题又如何呢?围绕内容所有者(以及其他受影响的利益相关者)的权利展开的激烈辩论,以及无数棘手的问题,尚未在法庭上得到解决。
为了消除担忧,OLMo团队计划与AI2的法律部门和待定的外部专家合作,在模型构建过程中的「检查点」停下来重新评估隐私和知识产权问题。
「我们希望通过关于模型及其预期用途的公开和透明的对话,我们可以更好地了解如何减轻偏见、毒性,并阐明社区内突出的研究问题,最终产生最强大的可用模型之一 」Smith说。
滥用的可能性如何?对于意图传播虚假信息和生成恶意代码的不良行为者而言,模型通常是有毒且有偏见的。
Hajishirzi 表示,AI2将结合许可、模型设计和对底层组件的选择性访问,以「最大限度地提高科学效益,同时降低有害使用的风险」。为了指导政策,OLMo有一个道德审查委员会,由内部和外部顾问(AI2不会说具体是谁)组成,他们将在整个模型创建过程中提供反馈。
目前,还有很多悬而未决的事情——包括该型号的大部分技术规格。(AI2确实透露它将有大约700亿个参数,参数是从历史训练数据中学习的模型的一部分。)未来几个月,将在芬兰的LUMI超级计算机上开始训练。
参考内容:https://www.geekwire.com/2023/allen-institute-for-ai-creating-an-open-generative-ai-language-model-by-scientists-for-scientists/https://techcrunch.com/2023/05/11/ai2-is-developing-a-large-language-model-optimized-for-science/https://allenai.org/
- 上一篇:Nature发文!ChatGPT加速科研编程 2023/5/14
- 下一篇:多尺度深度特征(上):多尺度特征学习才是目标检测精髓 2023/5/12