cover_image

企业级知识问答,如何实现大语言模型的可靠应用?

图片

大模型已经狂飙了半年。
然而,对于新技术,商业世界最关注的问题永远是:能用来干什么,要怎么用,成本是多少?
作为一家技术和产品力过硬的 AI 公司,有不少希望早日应用新技术的客户找到我们,询问大模型在具体业务中的落地应用。
大家经常问到的问题包括:
  • 能否私有化部署?成本高吗?

  • 训练自己的大模型是否可行?

  • 利用内部数据进行 Fine-tune,效果理想吗?

我们的观点是:大模型让信息的高效获取成为可能,专业领域的知识问答是大模型最适合的应用。
但回归到业务本身,无论是算法的可靠性,还是系统的性价比,直接训练和部署大模型都不是当下的最优解。检索增强的大模型(Retrieval-Augmented LLM)是最务实的解法。
TLNR,以下是本文的核心观点:
  • 大模型最适合的应用场景是知识问答

  • 大模型成本高,但小模型更难商用,现阶段模型参数和智力水平存在正相关。

  • 如果模型的参数规模不足够,用私有数据微调带来的准确率提升微乎其微。

  • 检索增强的大模型,能够真正落地,帮助业务提效。


1

   

大模型的能力边界
大模型最擅长、最成熟的能力,是自然语言处理。因此,它最擅长的两个任务就是“写作生成”“问答对话”
训练集中有哪些语言,它也就掌握了哪些语言。以 GPT 为例,它所掌握的语言不仅仅包括中文、英文等人类语言,还包括 python、golang、java 等机器语言。
在企业中,大模型的能力可以在知识问答、辅助编程等场景助力效率的提升。其中,最广泛的应用场景当属知识问答:每个行业、每个岗位的职场人,都需要参照规则或者查询信息才能辅助决策。
但即便是表现优秀的顶尖大模型 GPT-3.5/4,目前也存在以下几个问题:
  • 模型幻觉(hallucination):大模型会记忆训练语料库中包含的事实和知识。但是,它无法回忆出事实:它的生成逻辑是根据概率生成下一个单词,给出的是一个最优的词汇梯次聚类,因此有可能生成具有错误事实的表述。这就是模型的幻觉问题。我们不能将输出视为它思考过给出的「回答(answer)」,而仅仅是一个「结果(result)」,需要进行鉴别。

  • 知识截断(knowledge cutoff):它不知道自己训练完成后发生的事情。即使我们不断更新训练数据集,不断进行训练,也只是将它的知识截止日期推后了,而无法做到实时更新。

  • 缺乏用户定制化:用户需要是在某个实际场景中解决 95%的问题,而不是在 100 个场景中解决了 70%-80%的问题。


2

   

如何增强大模型的知识储备
为了控制大模型的「幻觉」问题,保证在专业知识问答中的可用性,需要给大模型增加特定领域的知识储备。目前,有两种证实有效的解决方案:
  • 一是考前封闭培训,再参加闭卷考试:基于行业数据的模型微调(Fine-Tuning LLM),在训练数据集中加入专业知识。

  • 二是开卷考试,边查边答:结合向量数据库的检索增强(Retrieval-Augmented LLM),在提示词(Prompt)中加入专业知识。


2.1

   

闭卷考试——模型微调(Fine-Tuning LLM)
训练成本:高
预测成本:较低
可靠性:🌟
模型微调(Fine-Tuning LLM)类似于先给模型上一个针对性的补习班,再参加闭卷考试。
在通用语料库上训练的大模型,缺乏特定的领域知识,不能很好地泛化到特定的领域上。因此,在基础模型上用专业领域进行微调,理论上可以获得更为理想的效果。我们可以提前收集聚焦于垂直行业的领域文档、问答语料,对大模型进行继续训练,得到一个专家模型。
在这一步骤中,基础大模型本身的规模和高质量的大规模标注数据是关键。如果基础大模型本身的参数小,蕴含的基本概念和常识不足,微调带来的收益会非常有限。反过来,如果模型参数达到一定规模,训练的成本会很高,且存在一定的试错成本:这是一个探索性的学术实验,而不能保证 100%的理想交付。
如果足够幸运,能够获得表现良好的专家模型,那么对于用户给出的问题,它就可以直接根据训练时存入的知识进行回答,无需依赖具体的文档。

图片

2.2

   

开卷考试——检索增强(Retrieval-Augmented LLM)
训练成本:无
预测成本:较高
可靠性:🌟🌟🌟
检索增强(Retrieval-Augmented LLM),类似于让模型参加开卷考试。每一次作答前,模型都先从数据库里检索匹配相关内容,再根据此进行回答。这一方法将数据库和大模型的生成能力结合起来,类似于给大模型加了一个高性能外接硬盘。
由于不涉及到模型层面的训练和调整,这一方法对数据量的要求就小很多,只需收集面向具体问题的文档即可。技术人员需要做的,是不断优化检索召回的精度。
首先将企业内部各类知识(包括.doc, .pdf, Markdown, 扫描件等等)进行预处理,以机器可读、可检索的格式,存储到数据库中。
然后在每次提问时,模型就可以「边搜边答」了:根据用户的提问,先在数据库中匹配检索相似度最高的文本块,将这些文档片段作为提示语,结合提问一起给到大模型,从而生成答案。

图片

提示语(Prompt),是帮助人与大模型沟通的通道。如果随意提问,那么大模型给出的答案随机性很大、信息质量也比较低。检索增强的模式,帮助模型筛选出高度相关的信息块,并将上下文(Context)、问题(Query),一起打包成提示语(Prompt)发送给大模型,从而得到更高质量的回答。

图片

3

   

两种方法的效果
我们认为,对于企业来说,比起训练自己的大模型,更务实的解决方案是调用更成熟的大模型,结合检索增强等其他技术手段,来满足实际使用的需求。
3.1

   

专家模型,难以「小而美」
闭卷考试的方法,对模型是个很大的考验。
根据现有研究,大模型与小模型的能力存在较大的差异。大模型的能力存在“涌现性”,即在模型参数达到一定数量后出现性能的跳跃性增长[1],这说明较小的模型,即使经过微调也难以在专业领域获得良好的表现
目前业内的一个共识是,50B-60B 参数是模型智力涌现的门槛。对于其能力差别的原因,有研究发现,大模型由于有更多的参数量,可以对语义进行更细粒度的区分。例如,对于一个代码的关键字 return,参数量大的模型可以精细地区分不同编程语言的 return 并激活不同的神经元[2]。这种能力对于多义词以及精细的内容理解是至关重要的。
尽管学界都在研究如何通过更小的模型实现更好的效果,从而节省成本,但现阶段还是一个技术卡点,突破需要时间。OpenAI 的研究表明,模型性能的规模定律仍然适用,增加模型的大小将继续提高性能。换言之,基于较大规模的模型参数,在大数据量上的预训练(Pretraining),仍然是提高模型智能水平的关键。
模型的训练也不存在「投机取巧」的捷径。通过采集 ChatGPT 的问答对,对较弱(较小)开源模型进行微调的方法,无法提高模型的实际能力。伯克利学者的研究结果表明,这些模仿模型表面上看输出质量不错,学习了 ChatGPT 的回答风格,但其真实能力经不住考验——更针对性的评估揭示,这些模型在具体的评测任务上与大模型之间的差距并没有缩小[3]。
专家模型如果想要「靠谱」,有两个关键点:一是要在足够好的基础模型上进行微调,二是获取到大量的高质量行业数据。同时,专家模型也依然是根据概率生成下一个单词,它的幻觉问题会有所减轻,但绝不可能避免。
此外,由于知识是以模型参数的方式存储的,它不清楚答案的知识来源于其训练阶段的什么具体文档;因此大模型本身无法提供「结果溯源」的功能,用户难以对结果进行校验。
3.2

   

检索增强,给模型加上海马体
而检索增强(Retrieval-Augmented LLM)的好处在于:
  • 经济性:检索增强没有训练模型的成本,能够通过加入不同领域的知识来源快速进行领域的适配,更加经济。

  • 可靠性高:通过检索,将相关度高的内容块加入 Prompt,这样大模型可以知道作答的知识从何而来,方便进行知识溯源,也支持人类用户对答案进行二次验证,准确性更有保障。

  • 时效性强:检索增强的方法不在大语言模型层进行改动,只是将新近资料预处理后加入文档库,更新频率更高。机器可检索的文档库,如同一块外接的知识硬盘,起到了海马体一样的作用。在人脑中,海马体与记忆的编码、存储和检索密切相关,将大脑不同区域的信息整合起来。

大模型拥有短期记忆,它与我们的交互,就像是一次次不断重来的闭卷考试。而检索增强将这一过程变成开卷考,从而增强了大模型的记忆,帮助其克服「幻觉」。
一方面,大模型在生成答案前可以实时查询专门的数据和知识,让回答更精准;另一方面,我们也可以将历史的问答对、用户的反馈存入数据库,让大模型学习这些历史使用数据,从而更好地理解用户的需求。
3.3

   

两种方法的对比
我们来总结下检索增强和模型微调两种方法各自的优劣:
检索增强的好处在于,没有高成本的训练、可以加入直接引用的产品设计、支持用户对 AI 生成答案的检查,但单次预测成本较高,因为需要在提示语中加入相关知识片段,需要消耗的 token 更多。模型微调虽然单次预测成本较低,但与高昂的训练成本比起来显得微不足道。
当然,将检索增强和模型微调两种方式结合,是更好的方案,能够补充模型的领域常识,有「钞能力」的企业可以两套方案同时进行。同时,在此基础上进行提示词优化,例如将特定任务拆解为几个步骤,进行多轮提示,也可以更好地引导大模型输出更为理想的结果。

图片

4

   

我们的技术优势
庖丁科技一直跟进大模型的技术进展,并探索可行的产品化方案。
无论技术如何更迭,用户最关注的永远是稳定性、可用性、易用性
目前,我们基于庖丁科技多年沉淀的基座能力,采用自研的富格式文档解析、Embedding 技术,结合不同的大语言模型,打造了 AI 专业知识问答助手(海外版:ChatDOC;国内版:庖丁解文)。
图片
我们所采用的就是检索增强的解决方案,既能充分发挥大模型的能力,也较好地通过技术组合和产品设计,提高 AI 回答的可靠性。我们的技术优势在于:
1. 文档信息抽取的基础设施,准确提取数据
基于深度学习和计算机视觉技术,庖丁科技多年以来沉淀了的世界领先富格式文档解析技术,尤其是表格识别技术,我们能将信息损耗降至最低。
例如,我们对同一份年报,提出一个相同的问题:本期期末的货币资金、应交税费是多少?
庖丁科技的 ChatDOC 可以从表格中提取出正确的数字,并溯源到底稿;
图片
而类似的产品则无法给出正确的答案,很有可能是它并不能对应出表格的行列关系。
图片
2. 将信息按照完整的知识单元存储,可用性高
为了便于大模型检索,我们需要将长文档切分为一个个小的知识块存储起来。
市面上开源的模型大部分是根据固定长度,或者换行符、分隔符进行切分,会将一个完整的知识模块拆分到不同文本块(text chunk)里。尤其是对于表格,只是将文字提取出来,而丢失了原来的结构和含义。
而庖丁是按照语义进行段落切分、结构化抽取了表格数据,跨页、跨行均不影响知识的连续性。
图片
3. 自研 Embedding 算法,检索匹配更相关
我们采用了自研的 Embedding 计算方法,自然语言检索的相关度更高。我们采用了更高维度的 Embedding 向量来编码更复杂、细粒度的语义。
我们内部的评测表明,与 OpenAI 的 text-embedding-ada-002 相比,我们的 Embedding 方法召回率有较大幅度的提高。这使得大语言模型可以更准确地在资料中查找到「相关考点」,并完成开卷考试。
5

   

庖丁解决方案
面向海外个人用户,我们推出了 「ChatDOC 文档阅读助手」。用户可以与文档直接对话,在一问一答间直达知识,并获得详细的引用来源,减轻大模型的幻觉问题。目前,ChatDOC 已帮助数 20 余万用户更好地学习、阅读、获取知识。
图片
图片
面向国内企业用户,我们推出了「庖丁解文专业知识问答助手」,能够帮企业解决以下问题:
  • 非结构化数据的预处理:将文档、PDF、扫描件转化为结构化数据。许多高价值信息都被锁在文档和扫描件中,机器可读性、可搜索性都很差。通过让大模型能够从更长尾的多模态数据中读取信息,生成相应的知识回答,以技术实现效率的提升。

  • 专业领域知识问答:「庖丁解文」可以基于企业级内部知识、行业公开资料,让大模型在金融、法律、审计等严肃领域,或者合同管理、简历管理、专利信息服务等严肃场景进行专业知识问答,从而帮助企业用户更快捷地获取知识。辅助决策的同时,也能减少信息流通的摩擦。

  • AI回答可溯源:相关的知识片段作为 Prompt 给到大模型,不仅保证了 AI 回答的稳定性,还能让我们在产品设计上增加溯源功能,每一句话都给到原文档的出处,方便进行二次核实,保证可靠、可用。

图片
多模态数据解析、向量计算的部分,我们可以根据客户的预算情况,提供云服务,或者私有化部署。
大模型服务的部分,客户可以选取自己需要的大模型,采用通过 API 调用的模式,按量收费;或者由客户直接采购,交由我们来完成系统的集成和对接。
如果您希望进一步了解「庖丁解文」专业知识问答助手,欢迎与我们联系。
官网https://paodingjiewen.com‍‍/
邮箱:contact@paodingai.com
电话:010-58426539

参考文献:
[1] Emergent Abilities of Large Language Models.https://arxiv.org/abs/2206.07682

[2] Finding Neurons in a Haystack: Case Studies with Sparse Probing. https://arxiv.org/abs/2305.01610

[3] The False Promise of Imitating Proprietary LLMs.https://arxiv.org/abs/2305.15717


图片











联系我们

相关产品

PDFlux SDK
开箱即用的 PDF 工具包PDFlux SDK
了解更多
Hunter
智能语义搜索引擎Hunter
了解更多
Glazer
庖丁智能撰写Glazer
了解更多
Scriber
文档信息抽取平台Scriber
了解更多