腾讯基于 LLM 的落地通常 OlaChat 的智能数据剖析平台

发布时间：2024-11-15 05:19:55点击：

在当今极速开展的数据剖析畛域，智能剖析平台正派历从传统 BI 到矫捷剖析，再到智能剖析的转变。随着移动互联网的兴起和大言语模型的出现，数据剖析变得愈加遍及，用户可以经过人造言语与系统启动互动，失掉所需数据。但是，即使在矫捷剖析阶段，依然存在必定的学习老本。大言语模型的引入为数据剖析带来了新的时机，它不只优化了言语了解和生成才干，还使得逻辑推理与工具经常使用变得愈加高效。经过对用户人造言语指令的了解和转化，智能剖析平台能够成功更直观的数据查问和剖析环节，为用户提供更为方便的服务。本文将分享腾讯基于 LLM 的智能数据剖析平台 OlaChat 的落地通常。

随着大言语模型（Large Language Models, LLMs）的极速开展，智能剖析在商业智能（Business Intelligence, BI）畛域的影响日益清楚。本节将讨论从传统 BI 到智能 BI 的过渡环节，剖析这一转型所带来的新时机与应战。

传统的商业智能体系通常是基于一种自上而下的形式，业务担任人提出需求，开发人员启动数据提取和剖析，最终经过一段期间的开发后，将结果反应给业务方。这种流程不只效率低下，还存在较大的沟通老本，造成决策的提前。用户经常须要期待一周甚至更长的期间，才干取得所需的数据剖析结果。

2.移动互联网时代的矫捷剖析

随着移动互联网的崛起，数据的丰盛性和复杂性一直参与，市场对数据剖析的需求也在出现变动。矫捷剖析应运而生，它旨在使更多的用户能够繁难地失掉数据并启动自助剖析。经过繁难的拖拽操作，用户可以轻松启动数据探求。但是，调研显示，即使是这种繁难的操作，对某些用户来说依然存在较高的学习老本。比如，用户在启动环比计算或其余复杂操作时，仍需把握相关性能的经常使用方法，存在必定的门槛。

到了 2019 年，智能剖析的设想开局萌芽。虽然大言语模型尚未片面遍及，但一些在人造言语处置畛域体现良好的模型曾经出现。这一期间，业界开局关注如何让更多的用户能够轻松启动数据剖析，目的是将每团体都转变为“数据剖析师”。智能剖析的概念逐渐构成，努力于简化数据剖析流程，降低用户的技术门槛。

现如今，随着大言语模型的遍及，智能BI 迎来了新的开展时机。大言语模型不只能够处置复杂的数据查问，还能经过人造言语与用户启动交互，使得数据剖析变得愈加直观和兽性化。用户只有用人造言语形容他们的需求，系统便能智能生成相应的剖析结果，这大大提高了剖析的效率和准确性。

大言语模型（Large Language Models, LLMs）的开展历程展现了人造言语处置（Natural Language Processing, NLP）畛域的清楚提高。接上去将梳理大言语模型的开展头绪，并讨论其对数据智能剖析所带来的新时机。

1.大言语模型的开展头绪

（1）初期阶段：基于概率的言语模型

人造言语处置的早期阶段关键依赖于概率模型，如条件随机场（Conditional Random Fields, CRF）和马尔可夫模型。这些模型基于历史数据，经过词袋模型（N-gram Model）来计算词语出现的概率。此时，言语模型的才干相对有限，关键并重于基于历史词语的概率预测。

2013 年，谷歌颁布了一项具有里程碑意义的方法 word2vec，标记着基于神经网络的言语模型时代的来到。在这一阶段，长短期记忆网络（Long Short-Term Memory, LSTM）等模型开局失掉宽泛运行。神经网络的引入大大提高了言语模型的性能，增强了其对高低文的了解才干。

2017 年，Google 颁布了 Transformer 架构，由此在 2018 年前后出现了一系列基于此的模型，如 BERT、GPT1/2 等。相较于之前的模型，BERT 和 GPT1/2 模型的参数量清楚参与，到达千万、数亿规模。这些模型经过在少量语料上启动一致训练，可以极速顺应不同义务，展现出弱小的言语了解才干。

随着 GPT-3 和后续版本的推出，言语模型的参数量到达了千亿、万亿级别。这使得一个模型能够同时在多个义务上到达较好的效果，降低了对多个模型的依赖。在这一阶段，言语模型在文本生成、了解和逻辑推理等方面的才干都失掉了极大的优化。

2.大言语模型对数据智能剖析的影响

大言语模型为数据智能剖析带来了以下四个方面的改良：

基于腾讯PCG 大数据平台部资产控制平台“Ola”和数据剖析平台“灯塔”丰盛的元数据和用户行为日志，联合大言语模型的才干，我们构建了 OlaChat 这一智能数据剖析平台。OlaChat 能够提供高效和智能的数据剖析服务，满足用户问数、人群洞察、NL2SQL 等需求，有效降低了查数、取数、用数的门槛。

接上去将详细引见 OlaChat 平台落地通常。

三、腾讯 OlaChat 智能 BI 平台落地通常

OlaChat 智能数据剖析平台关键目的是经过人造言语交互，为用户提供流利的数据剖析体验。系统的**模块包括多义务对话系统、义务编排引擎、泛滥的 AI 工具以及底层的公共服务才干。以下是 OlaChat 的关键性能与技术架构的深化解析。

接上去将详细引见其中一些才干。

多义务对话系统提供的基础性能为拒绝/廓清，以及疏导/介绍。

系统具有的关键才干包括：

在数据剖析中，元数据的检索是一个关键步骤，尤其当数据出现结构化方式时，传统的基于非结构化人造言语的检索方法无法齐全实用。腾讯的智能剖析平台经过增强元数据检索才干，处置了却构化数据中的多档次、复杂性疑问，为用户提供更精准的剖析允许。

结构化数据，比如表和目的，每个表有表名、字段，目的下有维度（如年龄、性别等），这些数据有档次性和明白的结构。这种档次结构不同于非结构化文本，不能繁难地经过人造言语的检索增强方法来处置。传统的人造言语检索关键基于 embedding（嵌入向量）技术，将文本分块后，经过相似度婚配来检索相关信息。但是，结构化数据并不遵照人造言语的逻辑，造成传统方法难以间接运行。

通用RAG 在处置元数据检索增强义务时存在必定的不实用性，关键由于：

我们有两种打算，区分从两个角度来处置元数据检索增强的疑问。

第一种打算是 FlattenedRAG，在已有元数据基础上启动组合，将结构化的元数据变为非结构化的人造言语，当接纳到用户疑问后，启动检索、排序，找到与常识库中分歧的数据。

第二种打算是 StructuredRAG，充沛应用好元数据的结构化信息，优先检索出最**的元素，再围绕这些**元素启动二次检索，找到所需的数据。

元数据打平 ：将数据表、字段、目的等信息组分解相似于问答式的人造言语。例如，目的为“生动用户数”、维度为“男子”的查问组合或者会被打平为：“腾讯视频男子生动用户数有多少？”。

基于常识库启动检索 ：当用户提出疑问后，系统会从打平后的常识库中启动检索，找出与用户疑问相似的文本。

排序和婚配 ：系统经过预训练的分类模型对检索结果启动排序，最终选用出最相关的答案前往给用户。

这种方法的**在于将结构化信息转化为非结构化文本，从而使得传统的人造言语检索技术可以间接运行。

**元素的检索：当用户提出疑问时，系统首先会应用结构化信息的档次性，优先检索出最关键的元素，如目的、维度等。例如，在用户征询“腾讯视频的男子生动用户有多少”时，系统会首先确定“生动用户数”这个关键目的。

围绕**元素的进一步检索 ：在找到**元素后，系统会启动二次检索，婚配用户的疑问和**元素的其余相关信息，比如在下面的例子中会二次检索和“男子”相似的多个维度。

前往结果 ：系统依据**元素的检索结果，再联合进一步的二次搜查，最后经过一次性排序之后给出最合乎用户疑问的答案。

在实践运行中，这两种打算各有其实用场景。例如，当目的和维度的数量相对有限时，打平方法或者更为高效；而在目的和维度组合较多的场景下，结构化办规律能够提供更自在的检索方式。这两种打算的联合，使得系统能够在不同场景下灵敏应答用户提出的各种数据剖析需求。

在泛数据剖析架构中，底层是目的、库表等元数据，以及画像和历史问答集；这些数据进入标注系统后，会经过各种标注处置；之后是各种检索，包括关键词检索、语义检索等；检索后启动常识精简，继而为下层的目的剖析、人群圈选等各种运行提供允许。常识精简和常识检索就是由前面引见的元数据 RAG 成功的。

Text2SQL 实在业务场景下存在着诸多疑问：

基于上述疑问，我们最终采取了微调大模型+Agent 的打算来成功 Text2SQL。

高品质的数据关于训练高效的模型至关关键。但是，开源数据集大多面向英文场景，即使翻译成中文，结构也较为繁难，通常为单表，字段在 10 个以下，而实践业务场景中或者有上百个字段。这使得大型模型在处置这些数据时容易发生曲解或无法准确解读业务中的复杂逻辑。此外，开源数据集在操作符的经常使用上也比拟有限，罕用的操作符较少，这进一步降低了模型在复杂义务上的体现。

在我们外部，曾经树立了一套数据生成的逻辑流程。该流程关键包括以下几个步骤：

数据搜集与脱敏 ：首先，我们会基于搜集到的腾讯外部数据，启动必要的脱敏处置，以确保用户隐衷和数据安保。

随机选取数据 ：在经过脱敏处置后，我们会从数据集中随机选用一些样本，并将这些样本拼接成相似的揭示（prompt），而后输入到大型模型中。

数据增强 ：应用这些样本，我们会经常使用数据增强的方法，让模型基于已有样本生成新的样本，经过这种循环一直丰盛数据集。

在数据增强环节中，有两个关键点须要特意关注，即准确性和多样性。

在数据生成环节中，我们将样本划分为不同的难度等级，包括繁难（easy）、中等（medium）、艰巨（hard）和特意艰巨（extra hard）。我们发现，开源数据集在艰巨和极度艰巨的数据生成上散布不均。因此，我们特意重点生成这些艰巨类型的数据，以补偿开源数据集的无余。

经过这样的数据增强与补充后，我们对模型的体现启动了评价。在实在的业务数据集上，模型的准确率通常较低，例如，GPT-4 的准确率为 32%，而我们自己的模型可以到达 52%。除此之外，我们训练的模型还能成功对复杂问法、复杂 Schema 和复杂计算逻辑的允许，具有较好的稳固性。

我们还发现，独自经常使用一个模型很难到达理想效果，要素如下：

在我们的系统中，除了依赖于大型模型外，我们还开发了一套智能体流程，旨在辅佐大模型生成更高品质的 SQL。这个智能体的流程能够针对大模型无了解力、稳固性和准确率等方面的无余，实施相应的战略，以处置这些疑问。

我们意识到，将一张表的所有字段都传递给大型模型以供其了解并不事实。为了提高模型的准确性，我们会首先启动字段的精选，过滤掉冗余字段，留下更相关的字段，从而使得模型无了解时愈加集中和高效。

用户的疑问表述往往较为轻易，为了优化准确性，我们可以经过模型对用户输入的疑问启动规范化处置，并参与一些 fewshot 检索，从而提高模型的了解才干和生成准确性。

生成的 SQL 或者并不总是能正确口头，我们设计了一个后续纠错机制，应用大模型对生成的 SQL 启动审核，并启动必要的修正，同时可以进一步优化准确性。

我们将上述思维整分解了一篇论文，讨论了如何经过信息精简、分类处置、针对性生成和自我纠错的环节来优化模型性能。在生成环节中，对不同复杂水平的查问采取不同处置方式，繁难的查问与复杂的查问应有不同的生成战略。在生成时设定特定条件，确保生成查问合乎口头要求。同时，实施自我纠错机制，让模型对自己生成的查问启动反思与调整。此外，我们还实施了被动学习（active learning）的战略，针对经常出现疑问启动重点揭示。经过让模型专一于规范化疑问，进一步提高模型的准确性。这一环节将智能体与大型模型相联合，优化全体的准确率。

在启动智能剖析时，用户的需求不只限于 text2SQL，还会有改写、纠错、优化、解读、问答、补齐等多种需求。为了满足用户多元化的需求，我们在系统中构建了多个智能体，旨在辅佐用户启动数据智能剖析，优化效率。

上图展现了 OlaChat 的全体架构，自下而上包括底层服务、两边公共服务、Agent、一致后端、一致前端，以及所允许的各种运行。不同模块相互配合，成功整个平台的一致体验，优化用户在数据剖析环节中的效率与效果。

Q1：取数时经常使用了多大的模型？

A1：取数模型为 8B，相对较小，适宜极速判别用户的查问。

NL2SQL 驳回的是 70B 的模型启动微调。

Q2：如何保障归因的准确率？

A2：归因的准确率依赖于归因工具。虽然大模型推理才干强，但要联合外部数据提高准确率。所以我们的做法为，基于归因工具拿到数据后，大模型担任在两边串联，做一些言语上的整顿演绎，出现给用户。

Q3：SQL 纠错和 SQL 解读能否用了大模型？

A3：SQL 纠错和解读是用大模型成功的，但仅用大模型的话准确率较低，因此需引入更多信息来优化。比如可以参与 SQL 中用到的表的元数据，也可以将口头中的报错信息参与出来。所以不能光用大模型，而是要依据详细场景参与更多信息。

Q4：间接生成 SQL 语句能否过于复杂？

A4：间接生成 SQL 语句与基于语义层的简化方法各有长处，前者灵敏性高，后者适宜对不相熟 SQL 的用户提供了有效的提效打算。