如何训练出专属于“你”的问答机器人?
虽然由 ChatGPT 掀起 AI 革命已来,但是它并不能够回答“我的”问题,也不能回答“你的”问题。但它却可以回答“大家”的问题。
为什么?ChatGPT 本身便是由庞大的互联网语料库训练而成,并且这部分训练数据截止于 2021 年 9 月。如果你的产品在这个日期之前就有幸在互联网中占有一席之地,那恭喜你,GPT 可以大概率可以回答出你的产品是大概是干嘛用的。因为它会从你的官网收集已有的描述语料。具体到单独的产品或公司的细节时它便开始靠胡言乱语来敷衍你了。
大致效果如下:
这里的“胡言乱语”指的是它会用其他不相关的概念进行回答,并且你并不能够预期什么问题会有什么回答,这在商业场景下十分致命。在大多数情况下,ChatGPT 对于一些带有公理性质的知识回答是没有问题的,作为一个可以日常侃大山闲聊的对象依然是合格的,可是你却看着它的强大的学习和理解能力望洋兴叹。
“你这个孙悟空什么时候才能懂我,给我想要的回答?”
这也是为什么说它能够回应大家的问题,但是却不能够回答出“我”想要的问题。
改变发生
直到,Dify 横空出世。
你可以简单地将 Dify 理解为是一个能够帮助你进行数据清理和文档训练的地方。咱们也给狗屁通(GPT)补补课,手动给它补上缺失的语料。把它从通用型聊天机器人,变成你的专业问答机器人。是的,从侃大山到对答如流,这中间的鸿沟不是一点半点,需要强大的理解、归纳总结能力。不过这正是狗屁通(GPT)的强项。
Dify部署
教程参考:Dify知识库基于Casaos一键部署 | 浪浪云技术栈 (langlangy.com)
现在,我们打开 Dify 并注册一个聊天机器人,我们在这里选择“聊天助手”。
Duang,一个聊天机器人就做好了。
访问这个链接就可以看到一个聊天机器人了。但是,它现在也只是一个通用型聊天机器人,离商业可用的专用型问答机器人还差一个语料的距离。
准备语料
Dify 提供了一个名叫“知识库”的功能,这里就是我们上传语料的地方。
是的没错,你也可以把电子书上传进来,用 AI 帮助你提炼书本内容。
在正式开始训练前,我们得先把教材准备好。用什么呢?就用计算机人的四本圣经和考研内容吧访问仓库地址:csseky/cskaoyan: 提供计算机考研和软件工程考研专业的各个学校 考研真题 (github.com),克隆下来。数据量真庞大,我先自己筛选下吧。就搞清华的吧,清华姚班大家考虑下。
分了这么多考试目录,让GPT搞个代码,让他给我合并到一起,一次上传,必上姚班
开始训练
现在要做的事,就是上传这个文件并静待训练成果了。
数据自动分段与清洗完成后,在刚创建的应用设置中的上下文,关联这一篇文档。
训练成功
现在再去和这个机器人互动,看看它会回答什么?好了,你已经是个成熟的问答机器人了,可以回答更加复杂的问题了。
这个问答机器人花了多久做出来,成本如何?
整理语料+训练完成控制在半个小时以内,训练成本 0.01 美元。
现在,AI 可以深入到产品内部,变成妥妥的产品专家。只要有优秀的文档,所有公司都可以打造出专用型问答机器人。