大模型用于企业数据开发详解!


但是,如果问一下GPT-4:你们公司上个季度的表现如何?结果一定是惨败!这说明了当前的大型语言模型(“LLM”)普遍面临一个根本挑战:它们虽然能够很好地掌握一般的公共知识,但是却完全不知道专有的非公开信息(参考补注[1])。而另一方面,专有信息对于绝大多数企业应用工作流都是至关重要的。一个了解公共互联网的模型固然很可爱;但对大多数组织来说,它的原始形式用处并不大。

在过去的一年里,我有幸与许多将LLM应用于企业用例的组织合作过。本文将详细介绍任何踏上这段旅程的人都应该知道的关键概念和关注点,以及我认为LLM将如何发展以及其对ML产品战略的影响。

本文面向的是产品经理、设计师、工程师和其他读者,并假设他们对LLM如何“在引擎盖下”工作知之甚少或一无所知,但是对学习LLM有关概念却很感兴趣,只是不涉及技术细节。

一、四个概念

1.提示工程、上下文窗口和嵌入

使LLM对专有数据进行推理的最简单方法是在模型的提示中提供专有数据。大多数LLM都会正确回答以下问题:“我们有两个客户,A和B,他们分别花了10万美元和20万美元。谁是我们最大的客户,他们花了多少钱?”我们刚刚测试完类似于这样的一些基本提示工程——通过在查询(第二句)前加上上下文(第一句)。

嵌入(Embeddings)可以获得在上下文中回答问题所需的信息。嵌入是一种将文本转换为数字向量的方法,其中相似的文本会生成相似的向量(在N维空间中“紧密存储在一起”的向量)(参考补注[2])。我们可能会嵌入网站文本、文档,甚至可能是SharePoint、Google Docs或Notion的整个语料库。然后,对于每个用户提示,我们嵌入它,在提示向量和矢量化文本语料库之间进行相似性搜索。例如,如果我们在维基百科上嵌入了关于动物的页面,而用户问了一个关于狩猎的问题,我们的相似性搜索会对维基百科上关于狮子、斑马和长颈鹿的文章进行高度排名。这使我们能够识别与提示最相似的文本块,从而最有可能回答它(参考补注[3])。我们将这些最相似的文字块包含在提示前的上下文中,这样提示就有望包含LLM回答问题所需的所有信息。

2.微调

嵌入的一个缺点是,对LLM的每次调用都需要在传递提示时传递所有上下文。LLM甚至连最基本的企业特定概念都没有“记忆”。由于大多数基于云的LLM提供商对每个提示令牌收费,这可能会导致有关费用很快变得昂贵(参考补注[4])。

微调有助于LLM理解特定于企业的概念,而无需在每个提示中都包含这些概念。我们采用了一个基础模型,该模型已经对数十亿个学习参数中的一般知识进行了编码,并调整这些参数以反映特定的企业知识,同时仍然保留基本的一般知识(参考补注[5])。当我们使用新的微调模型生成推论时,我们可以“免费”获得企业知识。

与嵌入/提示工程(底层模型是第三方黑盒)相比,微调更接近于经典的机器学习——ML团队可以从头开始创建自己的模型。微调需要一个带有标记观测值的训练数据集;微调模型对训练数据的质量和数量高度敏感。我们还需要做出配置决策(迭代次数、学习率等),安排长期的训练工作,并跟踪模型版本。目前,一些基础模型提供程序提供了一些抽象掉这种复杂性的API,有些则没有。


利用GPU微调大型语言模型
上一篇 2023年06月15日
暂无
下一篇
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88888888@qq.com 举报,一经查实,本站将立刻删除。

相关推荐