菜单
本页目录

如何训练出专属于“你”的问答机器人?

虽然由 ChatGPT 掀起 AI 革命已来,但是它并不能够回答“我的”问题,也不能回答“你的”问题。但它却可以回答“大家”的问题。

为什么?ChatGPT 本身便是由庞大的互联网语料库训练而成,并且这部分训练数据截止于 2021 年 9 月。如果你的产品在这个日期之前就有幸在互联网中占有一席之地,那恭喜你,GPT 可以大概率可以回答出你的产品是大概是干嘛用的。因为它会从你的官网收集已有的描述语料。具体到单独的产品或公司的细节时它便开始靠胡言乱语来敷衍你了。

大致效果如下:

image-uidj.png

这里的“胡言乱语”指的是它会用其他不相关的概念进行回答,并且你并不能够预期什么问题会有什么回答,这在商业场景下十分致命。在大多数情况下,ChatGPT 对于一些带有公理性质的知识回答是没有问题的,作为一个可以日常侃大山闲聊的对象依然是合格的,可是你却看着它的强大的学习和理解能力望洋兴叹。

“你这个孙悟空什么时候才能懂我,给我想要的回答?”

这也是为什么说它能够回应大家的问题,但是却不能够回答出“我”想要的问题。

改变发生

直到,Dify 横空出世。

你可以简单地将 Dify 理解为是一个能够帮助你进行数据清理和文档训练的地方。咱们也给狗屁通(GPT)补补课,手动给它补上缺失的语料。把它从通用型聊天机器人,变成你的专业问答机器人。是的,从侃大山到对答如流,这中间的鸿沟不是一点半点,需要强大的理解、归纳总结能力。不过这正是狗屁通(GPT)的强项。

Dify部署

教程参考:Dify知识库基于Casaos一键部署 | 浪浪云技术栈 (langlangy.com)

现在,我们打开 Dify 并注册一个聊天机器人,我们在这里选择“聊天助手”。

image-2ewh.png

Duang,一个聊天机器人就做好了。

image-eseu.png

访问这个链接就可以看到一个聊天机器人了。但是,它现在也只是一个通用型聊天机器人,离商业可用的专用型问答机器人还差一个语料的距离。

image-hjwz.png

准备语料

Dify 提供了一个名叫“知识库”的功能,这里就是我们上传语料的地方。

image-w4q5.png

是的没错,你也可以把电子书上传进来,用 AI 帮助你提炼书本内容。

在正式开始训练前,我们得先把教材准备好。用什么呢?就用计算机人的四本圣经和考研内容吧访问仓库地址:csseky/cskaoyan: 提供计算机考研和软件工程考研专业的各个学校 考研真题 (github.com),克隆下来。数据量真庞大,我先自己筛选下吧。就搞清华的吧,清华姚班大家考虑下。

image-ou8r.png

分了这么多考试目录,让GPT搞个代码,让他给我合并到一起,一次上传,必上姚班

image-8yne.png

image-cnhb.png

开始训练

现在要做的事,就是上传这个文件并静待训练成果了。

image-zfyj.png

数据自动分段与清洗完成后,在刚创建的应用设置中的上下文,关联这一篇文档。

image-xlvm.png

训练成功

现在再去和这个机器人互动,看看它会回答什么?好了,你已经是个成熟的问答机器人了,可以回答更加复杂的问题了。

image-qnko.png

这个问答机器人花了多久做出来,成本如何?

整理语料+训练完成控制在半个小时以内,训练成本 0.01 美元。

现在,AI 可以深入到产品内部,变成妥妥的产品专家。只要有优秀的文档,所有公司都可以打造出专用型问答机器人。