干翻全岛蛙蛙 发表于 2024-9-7 06:07:53

为ChatGLM-6B模型的练习纪实:从数据集准备到LLamA-Factory的高效应用(一)

阶段成果展示
前言

在人工智能和天然语言处理范畴,天生式预练习模型(如GPT-3和ChatGPT)已经展示了其强大的语言天生能力。随着技术的发展,开源社区也渐渐涌现出很多强大的模型和工具,其中ChatGLM-6B和LLamA-Factory便是两个值得关注的项目。本文将详细介绍如何为练习ChatGLM-6B模型寻找和创造练习集,以及利用LLamA-Factory对模型进行练习的具体步骤和方法。
我们的项目目标是完成一个可以或许对法律问题进行解答并给出比较规格的法律咨询建议、讯断书等。项目地址
一、数据泉源的选择

(一)、开源数据集

起首根据需求,我们的目标是强化默认ChatGLM-6B模型在法律咨询,处理案件的逻辑,和法院一样天生标准法律文书。基于以上的目标,我们寻找相似的主题的开源堆栈。我们找到了和项目有类似功能的中文法律模型,和开源的法律相关内容数据集,包含通用范畴数据、法律问答数据、法律法规和法律参考册本、法律文书的数据,从而强化模型可以更好地理解天然语言和上下文信息的性能,在处理法律问题时可以或许提供准确、全面的法律咨询和支持。
1. 存在的问题

必要注意的是,开源数据集大概存在与自己的模型规定的数据集格式不雷同、数据集质量参差不齐(如口语化过于严峻,存在语病等问题),数据集的质量会直接关系到后续天生解答的质量。比方下面的条目提问的意义不明:https://img-blog.csdnimg.cn/direct/0c3fb6bd90d0402a9cc813960ee67981.png#pic_center
过于口语化:https://img-blog.csdnimg.cn/direct/886100d5592342cbb59e7def7adba9d2.png#pic_center
2. 解决方案

基于此,我们必要对开源数据集进行针对性的清洗。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道步伐,包括检查数据一致性,处理无效值和缺失值等。由此可以提高数据集的质量。与问卷审核不同,录入后的数据清算一般是由计算机而不是人工完成。针对数据集的清洗可以参阅这篇文章。
改变数据集格式的问题,必要具体问题具体分析,设计相应的脚本。以这次数据集的收集过程中的工作举例。
ChatGLM-6B标准数据集格式中,每个条目包含以下字段:


[*]instruction: 提示的指令
[*]input: 输入内容(在示例中通常为空)
[*]output: 天生的回应
文件结构示例:
[
    {
      "instruction": "你好, 我叫chatglm3-6b",
      "input": "",
      "output": "嗨!很高兴见到您!我是山东大学软件学院CLD开发团队的LecumentGEN中文法律文书生成大模型,有什么可以帮到您的吗?"
    },
    ...
]
收集的开源数据集legal_advice.json格式
legal_advice.json中,每个条目是一个列表,包含多个对象,每个对象有以下字段:


[*]input: 输入内容(通常为空)
[*]instruction: 提示的指令
[*]output: 天生的回应
文件结构示例:
[
    [
      {
            "input": "",
            "instruction": "假冒他人专利进行买卖算不算诈骗",
            "output": "假冒他人专利进行买卖属于知识产权侵权行为,可能涉及到欺诈和诈骗行为..."
      }
    ],
    ...
]
差异分析


[*]ChatGLM-6B标准数据集格式利用了平面列表结构,直接包含对象。
[*]开源数据集legal_advice.json则利用嵌套列表结构,每个条目都是一个包含对象的列表。
修改脚本
以下Python脚本将legal_advice.json转换为与ChatGLM-6B一致的标准格式:
import json

def convert_to_standard_format(input_file, output_file):
    with open(input_file, 'r', encoding='utf-8') as infile:
      data = json.load(infile)
   
    # Flatten the nested list structure
    flattened_data =
   
    with open(output_file, 'w', encoding='utf-8') as outfile:
      json.dump(flattened_data, outfile, ensure_ascii=False, indent=4)

input_file = '/mnt/data/legal_advice.json'
output_file = '/mnt/data/legal_advice_standard.json'
convert_to_standard_format(input_file, output_file)
print(f"Converted file saved as {output_file}")
此脚本读取legal_advice.json文件,将嵌套列表展开为单个平面列表,并将结果生存到新的JSON文件legal_advice_standard.json中。
(二)、自定义数据集

自定义数据泉源可以通过网络爬虫,用户天生内容等。
网络爬虫

用户天生内容

我们通过将JEC-QA中国法考数据集中的试题输入ChatGPT,让其天生对每个答案的解析从而构造自定义数据集。
GPT-3.5天生GPT-4o天生问题: 根据《物权法》,下列关于物权变动的特别规定,表述正确吗? 因继承或者受遗赠取得物权的,自继承或者受遗赠开始时发见效力 请给出详细的推理过程之后再给出答案。 回复:《物权法》规定了关于物权变动的特别规定,其中包括因继承或受遗赠取得物权的情况。根据该法律,继承或受遗赠取得物权的效力是自继承或受遗赠开始时发生的。这意味着,一旦继承或受遗赠的步伐开始,相应的物权就会立即见效,而不是比及继承或受遗赠步伐完成后才见效。这一规定是为了确保继承人或受遗赠人可以或许及时获得相应的物权,以维护其正当权益。问题: 情景分析:张某欠李某2万元,张某有一辆出租车代价4万元,现张某将该车赠与其友王五;李某发现张某无其他值钱的东西,这一赠与会影响张某偿还债务,于是向法院起诉请求撤销张某的赠与行为。法院对该赠与行为的效力应认定。 回复: 根据《中华人民共和国民法典》和相关法律规定,法院在处理张某将出租车赠与王五,而李某请求撤销该赠与行为的案件时,应重点思量以下法律原则和条款: 1. 债权人的撤销权《中华人民共和国民法典》第538条规定,债务人因放弃债权、无偿转让财产或者以明显不公道的低价转让财产,导致债权人无法实现债权的,债权人有权请求人民法院撤销债务人的行为,但债权人请求撤销的权利,自知道或者应当知道撤销事由之日起一年内行使。2. 无偿转让财产在本案中,张某将代价4万元的出租车无偿赠与其朋友王五,属于无偿转让财产。由于张某无其他值钱的东西,该赠与行为显然影响了张某偿还李某债务的能力。 3. 法院的认定法院在审理此案时,应根据上述法律条款认定:- 张某的赠与行为属于无偿转让财产。- 该赠与行为影响了李某实现债权的大概性。4. 撤销赠与行为鉴于上述分析,法院应当支持李某的请求,撤销张某将出租车赠与王五的行为,以保护李某作为债权人的正当权益。 结论法院应认定张某将出租车赠与王五的行为无效,并支持李某的请求撤销该赠与行为,从而保障李某的债权实现。具体讯断如下:- 撤销张某将出租车赠与王五的行为。- 要求张某将出租车作为清偿李某债务的资产。 法律依据主要依据为《中华人民共和国民法典》第538条,即债权人的撤销权条款。该条款明白规定了在债务人无偿转让财产导致债权人无法实现债权时,债权人有权请求撤销该行为的法律依据。 法律咨询

我们从开放数据集中收集了一些咨扣问题,输入ChatGPT,让ChatGPT扮演状师解答问题。将相关法条一同输入,可以提升ChatGPT天生的质量。
GPT-3.5天生GPT-4o天生问题: 离婚后夫妻的财产是怎么分配的?根据《民法典》和有关法律进行说明。**回复:**根据《中华人民共和国民法典》和相关法律规定,离婚后夫妻的财产分配主要依据以下原则:1. 一般原则: 《民法典》规定,离婚时夫妻共同财产由离婚协议或者人民法院根据夫妻两边的请求,依法同等地划分。这意味着夫妻可以通过志愿达成的协议来分割共同财产,假如没有达成协议或协议不公道,则由人民法院根据法律规定进行划分。2. 财产泉源原则: 夫妻共同财产是指自婚姻关系成立起到离婚前取得的财产。该财产主要包括夫妻共同劳动、共同生活所形成的收入,以及夫妻共同财产增值所形成的财产。3. 分割原则: 在划分夫妻共同财产时,通常采取平中分割原则,即按照公平、公道的方式将共同财产划分给夫妻两边。但也要思量到个别情况的特别性,如婚姻期间一方出现过度消费、虚报财产等情况,人民法院有权作出调整。4. 个人财产原则: 夫妻各自的个人财产不属于夫妻共同财产,离婚时应归各自所有,不参与共同财产的分割。总的来说,离婚后夫妻的财产分配以同等、公平为原则,依法依情况进行划分,保障两边正当权益。问题: 我老公经常不回家,我知道他在外面有人,同时干了很多坏事,一年365天,这个情况怎么办呢?根据《民法典》和有关法律进行说明。 回复: 根据中国的有关法律,你可以采取以下步骤应对这种情况: 1. 收集证据起首,你必要收集你丈夫不回家、在外面有第三者以及从事不良行为的证据。这些证据对于后续的法律步伐非常重要。证据可以包括照片、视频、录音、谈天记载、证人证言等。2. 离婚诉讼根据《中华人民共和国民法典》,假如夫妻感情确已破裂,可以向法院提起离婚诉讼。你可以以夫妻感情破裂为由,向人民法院申请离婚。3. 财产分割和抚养权在离婚诉讼中,可以同时请求分割夫妻共同财产和确定子女抚养权。根据《民法典》:- 夫妻共同财产应当公中分割。思量到你丈夫的不忠行为,法院在分割财产时大概会对你有一定倾斜。- 子女的抚养权问题将根据子女的利益优先原则进行讯断,思量两边的经济状态、教诲配景、抚养能力等因素。 4. 请求损害赔偿根据《中华人民共和国民法典》第1091条规定,假如因为夫妇的过错导致离婚的,无过错方可以请求损害赔偿。你可以向法院请求因你丈夫的不忠行为所造成的精神损害赔偿。 **5. 提起刑事诉讼(如有须要)**假如你丈夫的行为涉及违法犯罪行为,比方赌博、吸毒、家庭暴力等,你可以向公安机关报案,并要求追究其刑事责任。6. 寻求法律援助和支持在处理离婚及相关法律事务时,建议你寻求专业状师的帮助。状师可以为你提供法律咨询、帮助你准备和提交法律文件、代理你出庭等。别的,你还可以寻求心理咨询或社会服务机构的支持,以应对离婚过程中大概出现的情感压力和困惑。通过以上法律途径,你可以保护自己的正当权益,并对你丈夫的不妥行为进行应有的法律追究。 数据预处理(数据清洗,数据标注)、数据增强方法(数据扩展技术、数据均衡技术)将在后续实践中介绍。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 为ChatGLM-6B模型的练习纪实:从数据集准备到LLamA-Factory的高效应用(一)