[Feature] 请教在领域语料上训练的步骤 #1377
Replies: 19 comments
-
前天添加的ptuning应当符合你的需求吧
|
Beta Was this translation helpful? Give feedback.
-
如果要形成公司内部的问答模型,问一些公司内部的政策文件,可以用这种模式训练吗,还是说应该有个问答的专门的训练集和训练方法? |
Beta Was this translation helpful? Give feedback.
-
@wywzxxz 这个我看到了。这个应该是finetune的方法,还是需要人工构造输入和输出。训练集数量不会太大。不知有没有直接在纯文本上进行自监督训练的方法和步骤。这样就可以利用海量的领域语料了。 我理解GLM应该是有这种训练方式,但是chatglm所做的指令微调工作是不是就得重做了? |
Beta Was this translation helpful? Give feedback.
-
@luieswww 我这边类似的使用场景有测试过非微调的解决方案 主要是基于本地文档的问答,可以参考 langchain-ChatGLM 好处是不需要再做训练,局限性是文本分段、匹配如果效果不好会影响回答效果。 |
Beta Was this translation helpful? Give feedback.
-
chatllama是这么训练的,中间的那步可以借鉴来在领域语料上训练。我是想达到这样的目的,不知能否在保留chat的能力上达到? |
Beta Was this translation helpful? Give feedback.
-
@luieswww 我也是这种需求,感觉如果靠构建上面的数据集,人工工作量貌似很大。 |
Beta Was this translation helpful? Give feedback.
-
我最近也在想这个问题,因为我有一张超大的表格想输入到chatglm中,同时保有其逻辑能力不变。
|
Beta Was this translation helpful? Give feedback.
-
直接进行,题主的2和3点,是可以的。 |
Beta Was this translation helpful? Give feedback.
-
请问这个问题最终的结果是应该怎么样进行呢?如何使用领域内大量文本无监督训练呢 |
Beta Was this translation helpful? Give feedback.
-
@chenyiwan 不知能更具体地说明一下吗?或者给点参考的链接。多谢了 |
Beta Was this translation helpful? Give feedback.
-
貌似这个可以,利用chatgpt进行self instruct数据集生成,https://github.com/yizhongw/self-instruct |
Beta Was this translation helpful? Give feedback.
-
同问,想用领域数据预训练chatGLM |
Beta Was this translation helpful? Give feedback.
-
请问有实现吗? |
Beta Was this translation helpful? Give feedback.
-
可以关注下 https://github.com/imClumsyPanda/langchain-ChatGLM/tree/dev 项目。 |
Beta Was this translation helpful? Give feedback.
-
+1 同问不知道题主现在进行到什么状态了 现在看到的都是两种: 方案一受制于embedding相关性较差,属于玩具,没法在工业化应用 还没见过谁实现题主说的 1)用GLM先进行pretrain,得到领域GLM,然后用指令微调训练集对领域GLM进行微调吗?这样等于ChatGLM的工作得重做了 这种形式的。 |
Beta Was this translation helpful? Give feedback.
-
pretrain的代码是有的。https://github.com/THUDM/GLM 中参考pretrain_glm.py |
Beta Was this translation helpful? Give feedback.
-
同问,这个方案有哪位大佬验证过吗? |
Beta Was this translation helpful? Give feedback.
-
同问,需要用公司的文本数据训练一个垂直领域的GLM,但是构建训练数据集上不知道如何下手 |
Beta Was this translation helpful? Give feedback.
-
https://github.com/shibing624/MedicalGPT |
Beta Was this translation helpful? Give feedback.
-
Is your feature request related to a problem? Please describe.
如果有领域上的纯文本语料,想得到某个领域的chatglm,不知可以通过什么步骤来做?
Solutions
是
1)用GLM先进行pretrain,得到领域GLM,然后用指令微调训练集对领域GLM进行微调吗?这样等于ChatGLM的工作得重做了。
2)还是要用这些纯文本自行生成指令微调训练集来微调?如果是,该怎么生成?
3)还是用ChatGLM本身就可以用这些文本来pretrain?
谢谢指点!
Additional context
No response
Beta Was this translation helpful? Give feedback.
All reactions