LLM_入门指南(零底子搭建大模型)

立山  金牌会员 | 2024-7-13 14:12:53 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 580|帖子 580|积分 1740

        本文紧张介绍大模型的prompt,并且给出实战教程。即使零底子也可以实现大模型的搭建。
内容:初级阶段的修炼心法,帮助凝聚和提升内力,为后续修炼打下底子。
1、prompt

1.1含义和作用

        prompt就是提示工程的意思。在大型语言模型中,"prompt"(提示)指的是用户提供给模型的输入文本或指令,用来指导模型生成相应的输出。Prompt在与模型交互时起着至关紧张的作用,它影响着模型的明白、回答的正确性和内容的创造性。以下是prompt在大模型中的紧张含义和作用:
        a. 指导模型生成:Prompt提供了模型生成回复或输出所需的初始信息和方向。它可以包含题目、指令、关键词或上下文信息,帮助模型明白用户的意图和需要,并基于此进行相应的生成。
        b. 上下文明白:通过prompt,模型能够了解当前对话或使命的上下文。这对于确保模型生成与用户盼望相关和连贯的回复至关紧张,特殊是在长期交互或多轮对话中。
        c.回答正确性:一个清晰和详细的prompt通常会导致更正确的回答。如果prompt形貌清晰用户的题目或需求,模型就能更容易地提供符合预期的信息或办理方案。
        d.生成多样性:尽管prompt为模型提供了指导,但它并不限定模型的创造性和输出的多样性。合适的prompt可以在保持正确性的同时,引发模型产生新颖或非显而易见的解答。
        e. 使命定向:在一些应用场景中,prompt可以具体指定模型需要执行的使命或生成的类型,如回答题目、提供建议、形貌情景等。这种指导有助于确保模型输出与特定使命或应用的需求相符。
        f. 语言风格和格式:通过prompt,用户可以设定盼望的语言风格、回答的结构或特定的信息格式。这对于确保模型输出的整体质量和用户体验至关紧张。
        总之,prompt在大型语言模型中充当了用户与模型之间交互的桥梁和指南,对于影响模型输出的正确性、相关性和多样性起着关键作用。有效地构建和使用prompt可以明显提高模型的实用性和相应本领。
1.2原则

        在处理大型语言模型中的prompt时,有几个原则是通常被思量和遵循的:
        a.清晰和简便的指导:prompt应该明确表达用户的需求大概题目,避免含糊或多义的形貌,以确保模型能够明白并提供相关和正确的回答。
        b. 上下文的引导:如果题目或需求涉及到特定的背景或上下文,prompt应该包含必要的信息来帮助模型明白,好比相关的关键词或相关信息。
        c. 具体的指令:prompt中应包含具体的指令或题目,以便模型知道用户盼望的输出类型和格式。例如,扣问一个城市的旅游景点时,可以明确指定需要景点名称、活动建议或交通讯息等。
        d.避免过度指导:固然提供一些上下文和指导是有益的,但避免过度指导或提供过多细节,以免限定模型的创造性和回答的多样性。
        e. 语言简便明了:使用清晰、简便和天然的语言编写prompt,以便模型能够轻松明白和处理。
        f.测试和调整:在实际应用中,对prompt进行测试和调整是很紧张的,以确保模型能够按预期工作,并且能够有效地处理各种输入。
        这些原则有助于确保大型语言模型能够在与用户的交互中表现出高效、正确和有创意的特性。
        总之:prompt就是一个起点,给大模型一个提示、引导和规范的作用。
1.3使用技巧

        a.分隔符
        eg:给出一段话并要求 GPT 进行总结,在该示例中我们使用 ``` 来作为分隔符。
  1. from tool import get_completion
  2. text = """您应该提供尽可能清晰、具体的指示,以表达您希望模型执行的任务。这将引导模型朝向所
  3. 需的输出,并降低收到无关或不正确响应的可能性。不要将写清晰的提示词与写简短的提示词混淆。在
  4. 许多情况下,更长的提示词可以为模型提供更多的清晰度和上下文信息,从而导致更详细和相关的输出。
  5. """ # 需要总结的文本内容
  6. prompt = f"""把用三个反引号括起来的文本总结成一句话。```{text}```""" # 指令内容,使用 ``` 来分隔指令和待总结的内容
  7. response = get_completion(prompt)
  8. print(response)
  9. # 为了获得所需的输出,您应该提供清晰、具体的指示,避免与简短的提示词混淆,并使用更长的提示
  10. 词来提供更多的清晰度和上下文信息。
复制代码
          b.结构化输出
        eg:生成三本书的标题、作者和种别,并以 JSON 的格式返回,为便于剖析,我们指定了 Json 的键: book_id、title、author、genre。
  1. prompt = f"""请生成包括书名、作者和类别的虚构的、非真实存在的中文书籍清单,并以 JSON 格式
  2. 提供,其中包含以下键:book_id、title、author、genre。"""
  3. response = get_completion(prompt)
  4. print(response)
  5. [
  6. { "book_id": 1, "title": "幻境之夜", "author": "李梦飞", "genre": "奇幻小说"
  7. },
  8. ... ]
复制代码
        c.参考示例
         Zero-Shot提示:模型只根据使命的形貌生成相应,不需要任何示例。
         One-Shot提示:只提供一个例子。
        Few-Shot提示:提供几个例子。在提示中的作用是通过少量样本引导模型对特定使命进行学习和执行,例如通过提供少量风格或主题示例,引导模型产出具有相似风格或主题的创作。
        d.让模型充当角色
        示例:请以莎士比亚戏剧中的哈姆雷特的身份表明“生存还是毁灭,这是一个题目”。这个示例要求模型以莎士比亚戏剧《哈姆雷特》中主人公的角色来表明著名的“生存还是毁灭”的题目,以展示模型在不同角色中的表现本领和语境明白本领。

2、模型实战

        项目使命(三大业务场景):
        1.文本分类
        2.文本信息抽取
        3.文本匹配
        大模型选择:ChatGLM-6B
        接纳方法:基于Few-Shot+Zero-Shot以及Instrunction的头脑,设计prompt, 进而应用ChatGLM-6B模型完成相应的使命
2.1 准备工作

        a.我们运用python环境来执行大模型,以是起首需要下载python,(建议用anaconda)
        b.下载ChatGLM-6B模型模型,链接如下:
                https://github.com/THUDM/ChatGLM-6B?tab=readme-ov-file
                README中介绍了ChatGLM-6B模型和硬件需求。
量化品级最低 GPU 显存(推理)最低 GPU 显存(高效参数微调)
FP16(无量化)13 GB14 GB
INT88 GB9 GB
INT46 GB7 GB
        c.在你的anaconda中安装需要的依赖。在前面github中下载的包中,它实在把全部需要的依赖都放在了requirements.txt中,直接输入:
        pip install -r requirements.txt
        如果下载速度很慢,加上清华镜像
        pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
        其中 transformers 库版本保举为 4.27.1,但理论上不低于 4.23.1 即可。
        此外,如果需要在 cpu 上运行量化后的模型,还需要安装 gcc 与 openmp。多数 Linux 发行版默认已安装。Windows 测试环境 gcc 版本为 TDM-GCC 10.3.0, Linux 为 gcc 11.3.0。
        d.从当地加载模型:
        以上代码会由 transformers 主动下载模型实现和参数。完整的模型实现可以在 Hugging Face Hub。如果你的网络环境较差,下载模型参数大概会花费较长时间甚至失败。此时可以先将模型下载到当地,然后从当地加载。
        从 Hugging Face Hub 下载模型需要先安装Git LFS,然后运行
  1. git clone https://huggingface.co/THUDM/chatglm-6b
复制代码
如果你从 Hugging Face Hub 上下载 checkpoint 的速度较慢,可以只下载模型实现
  1. GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/THUDM/chatglm-6b
复制代码
        然后从这里手动下载模型参数文件,并将下载的文件替换到当地的 chatglm-6b 目次下。
        将模型下载到当地之后,将以上代码中的 THUDM/chatglm-6b 替换为你当地的 chatglm-6b 文件夹的路径,即可从当地加载模型。
        MAC留意
        Mac直接加载量化后的模型出现提示 `clang: error: unsupported option '-fopenmp'
        这是由于Mac由于本身缺乏omp导致的,此时可运行但是单核。需要单独安装 openmp 依赖,即可在Mac下使用OMP:
  1. # 参考`https://mac.r-project.org/openmp/`
  2. ## 假设: gcc(clang)是14.x版本,其他版本见R-Project提供的表格
  3. curl -O https://mac.r-project.org/openmp/openmp-14.0.6-darwin20-Release.tar.gz
  4. sudo tar fvxz openmp-14.0.6-darwin20-Release.tar.gz -C /
复制代码
此时会安装下面几个文件:/usr/local/lib/libomp.dylib, /usr/local/include/ompt.h, /usr/local/include/omp.h, /usr/local/include/omp-tools.h。
   留意:如果你之前运行ChatGLM项目失败过,最好清一下Huggingface的缓存,i.e. 默认下是 rm -rf ${HOME}/.cache/huggingface/modules/transformers_modules/chatglm-6b-int4。由于使用了rm命令,请明确知道自己在删除什么。
          这是官方给的办理方案,我没成功。我是在代码上加入如下:
  1. import os
  2. os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"
复制代码
        防止了mac执行报错。
2.2 文本分类

        我们的目的是盼望模型能够帮助我们识别出这4段话中,每一句话形貌的是一个什么类型的陈诉。
  1. sentences = [
  2.         "今天,央行决定通过降低利率来刺激经济增长。这一决策预计会影响到贷款利率,并在接下来的几个季度对金融市场产生深远影响。",
  3.         "ABC公司今日宣布,他们已成功收购了XYZ公司的股权。这一重要的收购交易有助于ABC公司扩展业务范围,增强市场竞争力。据悉,这次收购将进一步巩固ABC公司在行业中的地位,并为未来的业务发展提供更广阔的空间。详细信息请参阅公司官方网站公告栏。",
  4.         "公司资产负债表显示,公司偿债能力强劲,现金流充足,为未来投资和扩张提供了坚实的财务基础。",
复制代码
        对于大模型来讲,prompt 的设计非常紧张,一个 明确 的 prompt 能够帮助我们更好从大模型中获得我们想要的结果。
在该使命的 prompt 设计中,我们紧张思量 2 点:
        1、需要向模型表明什么叫作「文本分类使命」
        2、需要让模型按照我们指定的格式输出
        2.2.1导入包

  1. """使用 LLM 进行文本分类使命。"""from rich import printfrom rich.console import Consolefrom transformers import AutoTokenizer, AutoModelimport os
  2. os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"
复制代码
        2.2.2 定义init_prompts函数

  1. # 提供所有类别以及每个类别下的样例
  2. class_examples ={
  3. '新闻报道':'今日,股市经历了一轮震荡,受到宏观经济数据和全球贸易紧张局势的影响。投资者密切关注美联储可能的政策调整,以适应市场的不确定性。',
  4. '财务报告':'本公司年度财务报告显示,去年公司实现了稳步增长的盈利,同时资产负债表呈现强劲的状况。经济环境的稳定和管理层的有效战略执行为公司的健康发展奠定了基础。',
  5. '公司公告':'本公司高兴地宣布成功完成最新一轮并购交易,收购了一家在人工智能领域领先的公司。这一战略举措将有助于扩大我们的业务领域,提高市场竞争力',
  6. '分析师报告':'最新的行业分析报告指出,科技公司的创新将成为未来增长的主要推动力。云计算、人工智能和数字化转型被认为是引领行业发展的关键因素,投资者应关注这些趋势'}
  7. # 定义init_prompts函数
  8. definit_prompts():
  9. '''
  10.     这里是对函数的功能进行注释,方便他人理解:该函数的目的是初始化前置prompt,便于模型做Few-shot
  11.     :return: dict字典
  12.     '''
  13.     class_list =list(class_examples.keys())
  14. print(f'分类的类别数:{class_list}')
  15.     pre_history =[
  16. (f'现在你是一个文本分类器,你需要按照要求将我给你的句子分类到:{class_list}类别中。',
  17. f'好的。')
  18. ]
  19. # 遍历给的示例样本
  20. for _type, example in class_examples.items():
  21. # print(f'键--》{_type}')
  22. # print(f'值--》{example}')
  23.         pre_history.append((f'"{example}"是{class_list}里的什么类别', _type))
  24. # print(f'pre_history--》{pre_history}')
  25. return{"class_list":class_list,"pre_history":pre_history}
复制代码
        a.提供一个Few-shot的样例,标注每个种别对应的话
        b.将种别存储到class_list中
        c.在样本提供之前给予一个prompt。即告诉模型。你是个文本分类器,要具体做什么?并给予一个答案(以逗号分隔)。(相当于一个有监督的训练)
        d.遍历给的示例样本,添加到pre_history
        e.返回一个字典。
        打印的结果如下:
  1. 分类的类别数:['新闻报道','财务报告','公司公告','分析师报告']
  2. 键--》新闻报道
  3. 值--》今日,股市经历了一轮震荡,受到宏观经济数据和全球贸易紧张局势的影响。投资者密切关注美联储可能的政策调整,以适应市场的不确定性。
  4. 键--》财务报告
  5. 值--》本公司年度财务报告显示,去年公司实现了稳步增长的盈利,同时资产负债表呈现强劲的状况。经济环境的稳定和管理层的有效战略执行为公司的健康发展奠定了基础。
  6. 键--》公司公告
  7. 值--》本公司高兴地宣布成功完成最新一轮并购交易,收购了一家在人工智能领域领先的公司。这一战略举措将有助于扩大我们的业务领域,提高市场竞争力
  8. 键--》分析师报告
  9. 值--》最新的行业分析报告指出,科技公司的创新将成为未来增长的主要推动力。云计算、人工智能和数字化转型被认为是引领行业发展的关键因素,投资者应关注这些趋势
  10. pre_history--》[("现在你是一个文本分类器,你需要按照要求将我给你的句子分类到:['新闻报道', '财务报告', '公司公告', '分析师报告']类别中。",'好的。'),('"今日,股市经历了一轮震荡,受到宏观经济数据和全球贸易紧张局势的影响。投资者密切关注美联储可能的政策调整,以适应市场的不确定性。"是[\'新闻报道\', \'财务报告\', \'公司公告\', \'分析师报告\']里的什么类别','新闻报道'),('"本公司年度财务报告显示,去年公司实现了稳步增长的盈利,同时资产负债表呈现强劲的状况。经济环境的稳定和管理层的有效战略执行为公司的健康发展奠定了基础。"是[\'新闻报道\', \'财务报告\', \'公司公告\', \'分析师报告\']里的什么类别','财务报告'),('"本公司高兴地宣布成功完成最新一轮并购交易,收购了一家在人工智能领域领先的公司。这一战略举措将有助于扩大我们的业务领域,提高市场竞争力"是[\'新闻报道\', \'财务报告\', \'公司公告\', \'分析师报告\']里的什么类别','公司公告'),('"最新的行业分析报告指出,科技公司的创新将成为未来增长的主要推动力。云计算、人工智能和数字化转型被认为是引领行业发展的关键因素,投资者应关注这些趋势"是[\'新闻报道\', \'财务报告\', \'公司公告\', \'分析师报告\']里的什么类别','分析师报告')]
复制代码
2.2.3 定义inference函数

  1.     sentences = [
  2. "今天,央行决定通过降低利率来刺激经济增长。这一决策预计会影响到贷款利率,并在接下来的几个季度对金融市场产生深远影响。",
  3. "ABC公司今日宣布,他们已成功收购了XYZ公司的股权。这一重要的收购交易有助于ABC公司扩展业务范围,增强市场竞争力。据悉,这次收购将进一步巩固ABC公司在行业中的地位,并为未来的业务发展提供更广阔的空间。详细信息请参阅公司官方网站公告栏。",
  4. "公司资产负债表显示,公司偿债能力强劲,现金流充足,为未来投资和扩张提供了坚实的财务基础。",
  5. "最新的分析报告指出,可再生能源行业预计将在未来几年经历持续增长,投资者应该关注这一领域的投资机会",
  6. ]
  7. definference(sentences: list,
  8.               custom_settings: dict):
  9. """
  10.     推理函数。
  11.     Args:
  12.         sentences (List[str]): 待推理的句子。
  13.         custom_settings (dict): 初始设定,包含人为给定的 few-shot example。
  14.     """
  15. for sentence in sentences:
  16. #没啥含义,就是改变打印的颜色。
  17. with console.status("[bold bright_green] Model Inference..."):
  18. #
  19.             sentence_prompt =f'"{sentence}"是{custom_settings["class_list"]}里的什么类别?'
  20.             response, history = model.chat(tokenizer, sentence_prompt, history=custom_settings['pre_history'])
  21. print(f'>>>[bold bright_red]sentence:{sentence}')
  22. print(f'>>>[bold bright_green]inference answer:{response}')
  23. print(f'history-->{history}')
  24. print("*"*80)
复制代码
输入
1、sentences :待推理的句子。
2、custom_settings :init_prompts准备好的 提示工程。
流程:
1、遍历需要推理的句子
2、执行焦点代码model.chat(tokenizer, sentence_prompt, history=custom_settings['pre_history'])
其中:
tokenizer:就是代码的分词器(可以明白为单词的最小单元)
sentence_prompt:将题目句子增补成完成的prompt
history:之前准备好的历史语句
打印的结果:
  1. >>>sentence:今天,央行决定通过降低利率来刺激经济增长。这一决策预计会影响到贷款利率,并在接下来的几个季度对金融市场产生深远影响。
  2. >>>inference answer:新闻报道
  3. >>>sentence:ABC公司今日宣布,他们已成功收购了XYZ公司的股权。这一重要的收购交易有助于ABC公司扩展业务范围,增强市场竞争力。据悉,这次收购将进一步巩
  4. 固ABC公司在行业中的地位,并为未来的业务发展提供更广阔的空间。详细信息请参阅公司官方网站公告栏。
  5. >>>inference answer:公司公告
  6. ********************************************************************************
  7. >>>sentence:公司资产负债表显示,公司偿债能力强劲,现金流充足,为未来投资和扩张提供了坚实的财务基础。
  8. >>>inference answer:财务报告
  9. ********************************************************************************
  10. >>>sentence:最新的分析报告指出,可再生能源行业预计将在未来几年经历持续增长,投资者应该关注这一领域的投资机会
  11. >>>inference answer:分析师报告
复制代码
可以看到分类成功了,此时我有大胆的想法。如果我输入一句和全部种别绝不相关的话会怎么样?
  1. sentences = ["我今天中午和朋友吃了牛肉粉丝汤,不小心洒了一地"]
复制代码
它会打印成:消息报道
这时候只要在prompt增长:
  1. "现在你是一个文本分类器,你需要按照要求将我给你的句子分类到:['新闻
  2. 报道', '财务报告', '公司公告', '分析师报告']类别中。如果都不是就输出:'其他' ",
复制代码
结果就可以酿成:
  1. >>>sentence:我今天中午和朋友吃了牛肉粉丝汤,不小心洒了一地
  2. >>>inference answer:其他
复制代码
2.2.4 完整代码

  1. # —*-coding:utf-8-*-"""使用 LLM 进行文本分类使命。"""from rich importprintfrom rich.console importConsolefrom transformers importAutoTokenizer,AutoModelimport os
  2. os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"# 提供所有类别以及每个类别下的样例
  3. class_examples ={
  4. '新闻报道':'今日,股市经历了一轮震荡,受到宏观经济数据和全球贸易紧张局势的影响。投资者密切关注美联储可能的政策调整,以适应市场的不确定性。',
  5. '财务报告':'本公司年度财务报告显示,去年公司实现了稳步增长的盈利,同时资产负债表呈现强劲的状况。经济环境的稳定和管理层的有效战略执行为公司的健康发展奠定了基础。',
  6. '公司公告':'本公司高兴地宣布成功完成最新一轮并购交易,收购了一家在人工智能领域领先的公司。这一战略举措将有助于扩大我们的业务领域,提高市场竞争力',
  7. '分析师报告':'最新的行业分析报告指出,科技公司的创新将成为未来增长的主要推动力。云计算、人工智能和数字化转型被认为是引领行业发展的关键因素,投资者应关注这些趋势'}
  8. # 定义init_prompts函数
  9. definit_prompts():
  10. '''
  11.     这里是对函数的功能进行注释,方便他人理解:该函数的目的是初始化前置prompt,便于模型做Few-shot
  12.     :return: dict字典
  13.     '''
  14.     class_list =list(class_examples.keys())
  15. print(f'分类的类别数:{class_list}')
  16.     pre_history =[
  17. (f'现在你是一个文本分类器,你需要按照要求将我给你的句子分类到:{class_list}类别中。',
  18. f'好的。')
  19. ]
  20. # 遍历给的示例样本
  21. for _type, example in class_examples.items():
  22. # print(f'键--》{_type}')
  23. # print(f'值--》{example}')
  24.         pre_history.append((f'"{example}"是{class_list}里的什么类别', _type))
  25. # print(f'pre_history--》{pre_history}')
  26. return{"class_list":class_list,"pre_history":pre_history}definference(sentences: list,              custom_settings: dict):"""    推理函数。    Args:        sentences (List[str]): 待推理的句子。        custom_settings (dict): 初始设定,包含人为给定的 few-shot example。    """for sentence in sentences:with console.status("[bold bright_green] Model Inference..."):            sentence_prompt =f'"{sentence}"是{custom_settings["class_list"]}里的什么种别?'            response, history = model.chat(tokenizer, sentence_prompt, history=custom_settings['pre_history'])print(f'>>>[bold bright_red]sentence:{sentence}')print(f'>>>[bold bright_green]inference answer:{response}')print(f'history-->{history}')print("*"*80)if __name__ =='__main__':    console =Console()#device = 'cuda:0'    device ='cpu'    tokenizer =AutoTokenizer.from_pretrained("./ChatGLM-6B/THUDM/chatglm-6b-int4",trust_remote_code=True)# model = AutoModel.from_pretrained("./ChatGLM-6B/THUDM/chatglm-6b", trust_remote_code=True).half().cuda()    model =AutoModel.from_pretrained("./ChatGLM-6B/THUDM/chatglm-6b-int4",trust_remote_code=True).float()    model.to(device)# sentences = [#     "本日,央行决定通过低落利率来刺激经济增长。这一决定预计会影响到贷款利率,并在接下来的几个季度对金融市场产生深远影响。",#     "ABC公司今日宣布,他们已成功收购了XYZ公司的股权。这一紧张的收购交易有助于ABC公司扩展业务范围,增强市场竞争力。据悉,这次收购将进一步巩固ABC公司在行业中的地位,并为未来的业务发展提供更广阔的空间。详细信息请参阅公司官方网站公告栏。",#     "公司资产负债表表现,公司偿债本领强劲,现金流充足,为未来投资和扩张提供了坚固的财政底子。",#     "最新的分析陈诉指出,可再生能源行业预计将在未来几年履历持续增长,投资者应该关注这一领域的投资时机",#     ]# sentences = ["金融系统是建设金融强国责无旁贷的主力军,必须切实把头脑和行动统一到党中心决定部署上来,深刻把握建设金融强国的精髓要义和实践要求,不绝增强使命感、责任感,推动宏伟蓝图一步步酿成优美实际"]    sentences =["我本日中午和朋友吃了牛肉粉丝汤,不小心洒了一地"]    custom_settings = init_prompts()print(custom_settings)    inference(        sentences,        custom_settings    )
复制代码
        主函数紧张调用本次使用的tokenizer和model。
留意
        如果用mac在执行过程中选用了chatglm-6b-int4模型,会报错,
  1.     logger.warning("Failed to load cpm_kernels:", exception)
  2. Message: 'Failed to load cpm_kernels:'
  3. Arguments: (RuntimeError('Unknown platform: darwin'),)
复制代码
        还能执行的话就不用管他,实在不可就切换成chatglm-6b模型即可。
       如果你要用gpu跑模型,可以用这个代码替换
  1. # model = AutoModel.from_pretrained("./ChatGLM-6B/THUDM/chatglm-6b", trust_remote_code=True).half().cuda()
复制代码
2.3 文本信息抽取

        实在文本信息抽取也是一致的紧张还是实现init_prompts函数和inference函数
2.3.1 实现init_prompts函数

  1. import reimport jsonfrom rich importprintfrom transformers importAutoTokenizer,AutoModelimport os
  2. os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"# 定义不同实体下的具备属性schema ={'金融':['日期','股票名称','开盘价','收盘价','成交量'],}# 信息抽取的模版IE_PATTERN ="{}\n\n提取上述句子中{}的实体,并按照JSON格式输出,上述句子中不存在的信息用['原文中未提及']来表示,多个值之间用','分隔。"# 提供一些例子供模型参考ie_examples ={'金融':[{'content':'2023-01-10,股市震荡。股票古哥-D[EOOE]美股今日开盘价100美元,一度飙升至105美元,随后回落至98美元,终极以102美元收盘,成交量达到520000。','answers':{'日期':['2023-01-10'],'股票名称':['古哥-D[EOOE]美股'],'开盘价':['100美元'],'收盘价':['102美元'],'成交量':['520000'],}}]}# 定义init_prompts函数definit_prompts():"""     初始化前置prompt,便于模型做 incontext learning。     """    ie_pre_history =[("现在你需要帮助我完成信息抽取使命,当我给你一个句子时,你需要帮我抽取出句子中实体信息,并按照JSON的格式输出,上述句子中没有的信息用['原文中未提及']来表示,多个值之间用','分隔。",'好的,请输入您的句子。')]for _type, example_list in ie_examples.items():print(f'_type-->{_type}')print(f'example_list-->{example_list}')print(f'*'*80)for example in example_list:            sentence = example["content"]            properties_str =', '.join(schema[_type])print(f'properties_str-->{properties_str}')            schema_str_list =f'"{_type}"({properties_str})'print(f'schema_str_list-->{schema_str_list}')            sentence_with_prompt = IE_PATTERN.format(sentence, schema_str_list)print(f'sentence_with_prompt-->{sentence_with_prompt}')            ie_pre_history.append((f"{sentence_with_prompt}",f"{json.dumps(example['answers'], ensure_ascii=False)}"))print(f'ie_pre_history-->{ie_pre_history}')return{"ie_pre_history":ie_pre_history}init_prompts()
复制代码
a.提供一个Few-shot的样例,定义不同实体下的具备属性
b.将prompt增补完整
c.增长至ie_pre_history当中
打印如下:
  1. _type-->金融
  2. example_list-->[{'content':
  3. '2023-01-10,股市震荡。股票古哥-D[EOOE]美股今日开盘价100美元,一度飙升至105美元
  4. ,随后回落至98美元,最终以102美元收盘,成交量达到520000。','answers':{'日期':
  5. ['2023-01-10'],'股票名称':['古哥-D[EOOE]美股'],'开盘价':['100美元'],
  6. '收盘价':['102美元'],'成交量':['520000']}}]
  7. ********************************************************************************
  8. properties_str-->日期,股票名称,开盘价,收盘价,成交量
  9. schema_str_list-->"金融"(日期,股票名称,开盘价,收盘价,成交量)
  10. sentence_with_prompt-->2023-01-10,股市震荡。股票古哥-D[EOOE]美股今日开盘价100美
  11. 元,一度飙升至105美元,随后回落至98美元,最终以102美元收盘,成交量达到520000。
  12. 提取上述句子中"金融"(日期,股票名称,开盘价,收盘价,
  13. 成交量)的实体,并按照JSON格式输出,上述句子中不存在的信息用['原文中未提及']来表
  14. 示,多个值之间用','分隔。
  15. ie_pre_history-->[("现在你需要帮助我完成信息抽取任务,当我给你一个句子时,你需要
  16. 帮我抽取出句子中实体信息,并按照JSON的格式输出,上述句子中没有的信息用['原文中未
  17. 提及']来表示,多个值之间用','分隔。",'好的,请输入您的句子。'),
  18. ('2023-01-10,股市震荡。股票古哥-D[EOOE]美股今日开盘价100美元,一度飙升至105美元
  19. ,随后回落至98美元,最终以102美元收盘,成交量达到520000。\n\n提取上述句子中"金融
  20. "(日期, 股票名称, 开盘价, 收盘价, 
  21. 成交量)的实体,并按照JSON格式输出,上述句子中不存在的信息用[\'原文中未提及\']来
  22. 表示,多个值之间用\',\'分隔。','{"日期": ["2023-01-10"], "股票名称": 
  23. ["古哥-D[EOOE]美股"], "开盘价": ["100美元"], "收盘价": ["102美元"], "成交量": 
  24. ["520000"]}')]
复制代码
2.3.2 定义inference函数

  1. def inference(sentences: list,
  2.               custom_settings: dict):
  3. """
  4.     推理函数。
  5.     Args:
  6.         sentences (List[str]): 待抽取的句子。
  7.         custom_settings (dict): 初始设定,包含人为给定的 few-shot example。
  8.     """
  9. for sentence in sentences:
  10.         cls_res ="金融"
  11. if cls_res notin schema:
  12. print(f'The type model inferenced {cls_res} which is not in schema dict, exited.')
  13.             exit()
  14.         properties_str =', '.join(schema[cls_res])
  15.         schema_str_list =f'"{cls_res}"({properties_str})'
  16.         sentence_with_ie_prompt = IE_PATTERN.format(sentence, schema_str_list)
  17. # print(f'sentence_with_prompt-->{sentence_with_ie_prompt}')
  18.         ie_res, history = model.chat(tokenizer,
  19.                                      sentence_with_ie_prompt,
  20.                                      history=custom_settings["ie_pre_history"])
  21.         ie_res = clean_response(ie_res)
  22. print(f'>>> [bold bright_red]sentence: {sentence}')
  23. print(f'>>> [bold bright_green]inference answer:{ie_res} ')
复制代码
a.定义输入:
        sentences (List[str]): 待抽取的句子。custom_settings (dict): 初始设定,包含人为给定的 few-shot example。
b.定义种别:cls_res = "金融"
        这里将种别写死了。如果有多个种别。可以先使用 文本分类 实现后,在进行文本信息抽取。
c.将输入的sentences增补完整,调用 model.chat
d.将模型结果做一个后处理,提取json模型并输出
打印如下:
  1. >>> sentence: 
  2. 2023-02-15,寓意吉祥的节日,股票佰笃[BD]美股开盘价10美元,虽然经历了波动,但最终
  3. 以13美元收盘,成交量微幅增加至460,000,投资者情绪较为平稳。
  4. >>> inference answer:{'日期': ['2023-02-15'], '股票名称': ['佰笃[BD]美股'], 
  5. '开盘价': ['10美元'], '收盘价': ['13美元'], '成交量': ['460,000']}
复制代码
2.3.3 完整代码

  1. import reimport jsonfrom rich importprintfrom transformers importAutoTokenizer,AutoModelimport os
  2. os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"# 定义不同实体下的具备属性schema ={'金融':['日期','股票名称','开盘价','收盘价','成交量'],}# 信息抽取的模版IE_PATTERN ="{}\n\n提取上述句子中{}的实体,并按照JSON格式输出,上述句子中不存在的信息用['原文中未提及']来表示,多个值之间用','分隔。"# 提供一些例子供模型参考ie_examples ={'金融':[{'content':'2023-01-10,股市震荡。股票古哥-D[EOOE]美股今日开盘价100美元,一度飙升至105美元,随后回落至98美元,终极以102美元收盘,成交量达到520000。','answers':{'日期':['2023-01-10'],'股票名称':['古哥-D[EOOE]美股'],'开盘价':['100美元'],'收盘价':['102美元'],'成交量':['520000'],}}]}# 定义init_prompts函数definit_prompts():"""     初始化前置prompt,便于模型做 incontext learning。     """    ie_pre_history =[("现在你需要帮助我完成信息抽取使命,当我给你一个句子时,你需要帮我抽取出句子中实体信息,并按照JSON的格式输出,上述句子中没有的信息用['原文中未提及']来表示,多个值之间用','分隔。",'好的,请输入您的句子。')]for _type, example_list in ie_examples.items():# print(f'_type-->{_type}')# print(f'example_list-->{example_list}')# print(f'*'*80)for example in example_list:            sentence = example["content"]            properties_str =', '.join(schema[_type])# print(f'properties_str-->{properties_str}')            schema_str_list =f'"{_type}"({properties_str})'# print(f'schema_str_list-->{schema_str_list}')            sentence_with_prompt = IE_PATTERN.format(sentence, schema_str_list)print(f'sentence_with_prompt-->{sentence_with_prompt}')            ie_pre_history.append((f"{sentence_with_prompt}",f"{json.dumps(example['answers'], ensure_ascii=False)}"))print(f'ie_pre_history-->{ie_pre_history}')return{"ie_pre_history":ie_pre_history}defclean_response(response: str):"""    后处理模型输出。    Args:        response (str): _description_    """if'```json'in response:        res = re.findall(r'```json(.*?)```', response)iflen(res)and res[0]:            response = res[0]        response = response.replace('、',',')try:return json.loads(response)except:return responsedefinference(sentences: list,              custom_settings: dict):"""    推理函数。    Args:        sentences (List[str]): 待抽取的句子。        custom_settings (dict): 初始设定,包含人为给定的 few-shot example。    """for sentence in sentences:        cls_res ="金融"if cls_res notin schema:print(f'The type model inferenced {cls_res} which is not in schema dict, exited.')            exit()        properties_str =', '.join(schema[cls_res])        schema_str_list =f'"{cls_res}"({properties_str})'        sentence_with_ie_prompt = IE_PATTERN.format(sentence, schema_str_list)# print(f'sentence_with_prompt-->{sentence_with_ie_prompt}')        ie_res, history = model.chat(tokenizer,                                     sentence_with_ie_prompt,                                     history=custom_settings["ie_pre_history"])        ie_res = clean_response(ie_res)print(f'>>> [bold bright_red]sentence: {sentence}')print(f'>>> [bold bright_green]inference answer:{ie_res} ')if __name__ =='__main__':#device = 'cuda:0'    device ='cpu'    tokenizer =AutoTokenizer.from_pretrained("./ChatGLM-6B/THUDM/chatglm-6b-int4",                                              trust_remote_code=True)#model = AutoModel.from_pretrained("./ChatGLM-6B/THUDM/chatglm-6b",# trust_remote_code=True).half().cuda()    model =AutoModel.from_pretrained("./ChatGLM-6B/THUDM/chatglm-6b-int4",                                      trust_remote_code=True).float()    model.to(device)    sentences =['2023-02-15,寓意祥瑞的节日,股票佰笃[BD]美股开盘价10美元,固然履历了颠簸,但终极以13美元收盘,成交量微幅增长至460,000,投资者感情较为平稳。','2023-04-05,市场迎来轻松氛围,股票盘古(0021)开盘价23元,尽管履历了颠簸,但终极以26美元收盘,成交量缩小至310,000,投资者保持观望态度。',]    custom_settings = init_prompts()    inference(        sentences,        custom_settings    )
复制代码
2.4 文本匹配

        文本匹配具体和我之前做的bert是一个项目。这里紧张食用prompt实现。和上面基本一致,就不重点叙述了
完整代码如下:
2.4.1 完整代码

  1. from rich importprint
  2. from transformers importAutoTokenizer,AutoModel
  3. import os
  4. # 提供相似,不相似的语义匹配例子
  5. examples ={
  6. '是':[
  7. ('公司ABC发布了季度财报,显示盈利增长。','财报披露,公司ABC利润上升。'),
  8. ],
  9. '不是':[
  10. ('黄金价格下跌,投资者抛售。','外汇市场交易额创下新高。'),
  11. ('央行降息,刺激经济增长。','新能源技术的创新。')
  12. ]
  13. }
  14. definit_prompts():
  15. """
  16.     初始化前置prompt,便于模型做 incontext learning。
  17.     """
  18.     pre_history =[
  19. (
  20. '现在你需要帮助我完成文本匹配任务,当我给你两个句子时,你需要回答我这两句话语义是否相似。只需要回答是否相似,不要做多余的回答。',
  21. '好的,我将只回答”是“或”不是“。'
  22. )
  23. ]
  24. for key, sentence_pairs in examples.items():
  25. # print(f'key-->{key}')
  26. # print(f'sentence_pairs-->{sentence_pairs}')
  27. for sentence_pair in sentence_pairs:
  28.             sentence1, sentence2 = sentence_pair
  29. # print(f'sentence1-->{sentence1}')
  30. # print(f'sentence2-->{sentence2}')
  31.             pre_history.append((f'句子一:{sentence1}\n句子二:{sentence2}\n上面两句话是相似的语义吗?',
  32.                                 key))
  33. return{"pre_history": pre_history}
  34. definference(
  35.         sentence_pairs: list,
  36.         custom_settings: dict
  37.     ):
  38. """
  39.     推理函数。
  40.     Args:
  41.         model (transformers.AutoModel): Language Model 模型。
  42.         sentence_pairs (List[str]): 待推理的句子对。
  43.         custom_settings (dict): 初始设定,包含人为给定的 few-shot example。
  44.     """
  45. for sentence_pair in sentence_pairs:
  46.         sentence1, sentence2 = sentence_pair
  47.         sentence_with_prompt =f'句子一: {sentence1}\n句子二: {sentence2}\n上面两句话是相似的语义吗?'
  48.         response, history = model.chat(tokenizer, sentence_with_prompt, history=custom_settings['pre_history'])
  49. print(f'>>> [bold bright_red]sentence: {sentence_pair}')
  50. print(f'>>> [bold bright_green]inference answer: {response}')
  51. # print(history)
  52. if __name__ =='__main__':
  53. #device = 'cuda:0'
  54.     device ='cpu'
  55.     tokenizer =AutoTokenizer.from_pretrained("/Users/ligang/PycharmProjects/llm/ChatGLM-6B/THUDM/chatglm-6b-int4",
  56.                                               trust_remote_code=True)
  57. #model = AutoModel.from_pretrained("./ChatGLM-6B/THUDM/chatglm-6b",
  58. # trust_remote_code=True).half().cuda()
  59.     model =AutoModel.from_pretrained("/Users/ligang/PycharmProjects/llm/ChatGLM-6B/THUDM/chatglm-6b-int4",
  60.                                       trust_remote_code=True).float()
  61.     model.to(device)
  62.     sentence_pairs =[
  63. ('股票市场今日大涨,投资者乐观。','持续上涨的市场让投资者感到满意。'),
  64. ('油价大幅下跌,能源公司面临挑战。','未来智能城市的建设趋势愈发明显。'),
  65. ('利率上升,影响房地产市场。','高利率对房地产有一定冲击。'),
  66. ]
  67.     custom_settings = init_prompts()
  68.     inference(
  69.         sentence_pairs,
  70.         custom_settings
  71.     )
复制代码
 


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

立山

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表