Datawhale X 魔搭 AI夏令营第四期-AIGC文生图方向Task2笔记

打印 上一主题 下一主题

主题 1650|帖子 1650|积分 4950

Task2使命目标

Datawhale官方手册task2部门:链接
虽然手册部门已经非常具体,但我这里照旧以自己的逻辑框架写一写我完成Task2的经历流程。
Task2的内容非常简单,
1.学会使用AI工具“通义千问”
2.使用AI工具精读baseline的内容
3.基于话剧的连环画天生
4.实验scepter(选做)
AI工具使用

AI工具先容

这里我想试试让这些工具自己先容一下自己hhh
prompt:我如今要比较各AI工具,请你先容你自己的功能用途和优缺点。
ChatGPT

网址:https://chatgpt.com/
自我先容:

固然!以下是我的功能、用途以及优缺点的总结:
功能与用途


  • 多领域知识问答:

    • 我可以或许回答广泛领域的问题,包括科技、汗青、艺术、文化等。
    • 得当用于快速查找信息或得到表明性答案。

  • 自然语言处理:

    • 支持多种语言的自然语言处理,包括翻译、文本天生、摘要、改写等。
    • 可以帮助撰写文章、编写代码、草拟信件等。

  • 图像天生与形貌:

    • 基于形貌天生图像,可以用于创意设计、故事板制作等。
    • 还可以对图像内容进行形貌,为图像提供更多的上下文。

  • 代码编写与调试:

    • 我可以帮助编写和调试代码,支持多种编程语言,包括Python、JavaScript等。
    • 可以用于编程学习、开辟支持等。

  • 实时信息获取:

    • 我可以使用实时浏览器工具获取最新信息,实用于需要最新数据或新闻的场景。
    • 例如,查找最新的新闻报道、体育比分、股票行情等。

  • 数据分析与计算:

    • 支持简单的数据分析和计算使命,例如数学问题求解、统计分析等。
    • 可用于教育、研究和商业分析。

优点


  • 广泛的实用性:

    • 可以或许适应多种使命,从回答问题到天生创意内容。
    • 得当个人用户、研究人员、开辟者、设计师等不同用户群体。

  • 自然对话能力:

    • 对话交互方式自然流通,可以进行长时间的对话并理解上下文。
    • 可以或许根据用户的需求调整回答方式和内容。

  • 跨平台支持:

    • 可以在各种设备和平台上使用,包括电脑、手机等。

  • 多语言支持:

    • 可以或许处理和天生多种语言的内容,方便全球用户使用。

缺点


  • 复杂使命的局限性:

    • 在面临高度复杂或专业化的使命时,大概无法提供完全准确的答案或解决方案。
    • 例如,某些特定领域的深入技术问题大概需要额外的专家支持。

  • 实时信息更新依靠工具:

    • 实时信息获取需要依靠外部工具,偶然大概会偶然效性和准确性的问题。

  • 上下文限制:

    • 虽然我可以记住一定量的上下文信息,但在更长时间或多次对话中,大概会丢失部门上下文,导致回答不够精准。

  • 创造性内容天生的局限性:

    • 虽然我能天生图像和文本,但在高度创造性和细致的内容需求下,天生的结果大概不如人类艺术家或作家风雅。

总结

我在多功能性、自然对话、跨平台支持以及多语言处理上表现精彩,非常得当一样平常信息查询、教育、创意内容天生和编程支持等使命。然而,在处理高度复杂或专业的使命以及创造性内容天生时,大概存在一定的局限性。

KIMI

网址:https://kimi.moonshot.cn/
自我先容:

嗨,我是Kimi,一个由月之暗面科技有限公司开辟的多语言对话助手。我的主要功能和用途包括:

  • 多语言对话:我善于中文和英文的对话,可以进行流通的交换。
  • 长文本处理:我能处理多轮对话,总字数最多可达20万字,得当长文本写作、翻译和代码编写。
  • 文件阅读:我可以阅读和剖析用户发送的多种格式文件,包括TXT、PDF、Word文档、PPT幻灯片和Excel电子表格等。
  • 网页内容剖析:用户发送的网页链接,我可以剖析其内容后结合回答用户的问题。
  • 搜索能力:我可以或许结合搜索结果为用户提供更全面的回答。
  • 代码执行:对于代码相关问题,我可以提供完备可执行的代码。
  • 个性化服务:"Kimi+"功能允许用户根据特定需求自定义我的行为。
我的优点包括:


  • 高效率:可以或许快速相应用户的问题。
  • 多使命处理:同时处理文本、文件和网页内容。
  • 用户友爱:采用口语化的语言风格,易于交换。
  • 搜索集成:结合最新搜索结果提供信息。
然而,也有一些局限性:


  • 无法创建文档:我不能天生文档,但可以提供文字回复。
  • 无法进行语音交互:虽然我的App支持语音输入和输出,但目前我仅能提供文字回复。
  • 依靠网络:我的搜索和剖析功能依靠于网络连接。
希望这些信息能帮助你在比较AI工具时做出决议。如果你需要更多帮助或有具体问题,随时可以问我!

通义千问

网址:https://tongyi.aliyun.com/qianwen/
自我先容:

固然可以。作为阿里云开辟的一款大型语言模子,我的主要功能和用途包括但不限于:
主要功能与用途:


  • 文本天生:可以或许根据用户提供的提示或上下文天生高质量的文本内容。
  • 问答系统:可以回答各种范例的问题,包括但不限于知识性问题、技术咨询、文化汗青等。
  • 代码辅助:帮助编写、表明和调试代码。
  • 创意写作:帮忙创作故事、诗歌和其他创意作品。
  • 文档总结:快速总结长篇文章或报告的主要内容。
  • 多语言支持:支持多种语言的交换与翻译。
  • 教育辅导:提供学习资源和辅导弟子完成作业。
  • 一样平常对话:进行一样平常聊天,提供娱乐和陪同。
优点:


  • 广泛的知识覆盖:基于大量的数据训练而成,可以或许涵盖多个领域的知识。
  • 强盛的自然语言处理能力:可以或许理解复杂和模糊的指令,并给出合理的相应。
  • 多模态交互:除了文本外,还可以或许通过其他形式如语音等方式进行交互(尽管目前主要照旧文本形式)。
  • 实时更新:随着新数据的加入,我的知识库会不绝得到更新,以保持信息的时效性。
  • 灵活性高:可以根据不同的应用场景定制解决方案。
缺点:


  • 准确性限制:虽然经过大量训练,但在某些专业领域或非常具体的细节上大概会出现误差。
  • 敏感内容过滤:尽管有机制防止天生不当内容,但仍然大概存在少少数情况下天生不相宜的信息。
  • 隐私保护:在处理涉及个人隐私的数据时需要特别注意服从相关法律法规。
  • 创造性局限:虽然可以或许天生创造性的内容,但在某些方面大概不如人类作者那样具有独创性。
  • 依靠于输入质量:输出的质量很大水平上取决于输入的清晰度和准确性。
如果您有任何具体问题或者想要了解更具体的信息,请随时告诉我!

ChatGLM

网址:https://chatglm.cn/main/alltoolsdetail
自我先容:

固然可以。我是基于人工智能的语言模子,以下是我的功能用途、优点和缺点:
功能用途:

  • 文本天生:可以撰写文章、天生报告、编写代码、创作诗歌等。
  • 问答系统:回答各种领域的问题,提供信息查询服务。
  • 语言翻译:实现不同语言之间的互译。
  • 对话助手:模拟人类对话,提供聊天、咨询和娱乐等服务。
  • 教育辅助:辅助教学,提供学习资源,解答学术问题。
  • 情感分析:分析文本中的情感倾向,应用于舆情监测、客户服务等领域。
    优点:
  • 高效:可以快速天生文本,进步工作效率。
  • 知识丰富:拥有庞大的知识库,可以回答多种领域的问题。
  • 全天候服务:不受时间和地点限制,随时为用户提供服务。
  • 多语言支持:具备一定的语言翻译能力,方便跨语言交换。
  • 可定制性:可以根据用户需求进行功能调整和优化。
    缺点:
  • 大概存在知识盲区:由于我只能根据训练数据回答,对于最新的信息大概不了解。
  • 理解能力有限:虽然可以模拟人类对话,但理解复杂情感和语境的能力有限。
  • 大概产生错误:在天生文本或回答问题时,偶然会犯错误。
  • 法律和伦理束缚:在某些涉及法律和伦理问题的场景中,我的应用大概受到限制。
  • 依靠网络:需要网络情况才气正常运行,离线状态下功能受限。
    综合来看,我在文本天生、问答系统和对话助手等方面具有较高的实用价值,但仍有待进一步完善和优化。

讯飞星火

网址:https://xinghuo.xfyun.cn/desk
自我先容:

我是由科大讯飞构建的讯飞星火认知大模子,专门设计来与人类进行自然语言交换,提供高效、准确的信息处理和智能解答服务。我的功能覆盖了广泛的领域,包括但不限于语音辨认、自然语言理解、自动问答和多语言翻译等。
在优点方面,我可以快速处理大量数据,提供即时的反馈息争决方案。我的学习和适应能力强,可以或许根据用户的交互不绝优化回答和服务。此外,作为一个认知智能大模子,我还可以或许理解和天生复杂的文本信息,支持多种语言,这使得我可以或许在全球化的情况中为用户提供服务。
然而,作为一款人工智能产品,我也存在一些局限性。例如,我的回答息争决方案受限于训练数据集的范围和质量,大概无法完全覆盖全部领域的知识或理解非常专业的内容。同时,虽然我可以或许模拟人类的交换模式,但我缺乏真正的情感和同理心,这在某些情境下大概影响交换的自然度和深度。
总的来说,我旨在通过先辈的技术和持续的学习,为用户带来便捷、高效的服务体验,同时也在不绝努力降服现有的局限,以更好地满足用户的需求。

使用感受

ChatGPT:在表明代码、润色文章(尤其是英文)等方面表现得尤为精彩,一样平常大部门时间使用。但需要邪术,偶然不稳定。
Kimi:ChatGPT平替,由于ChatGPT容易挂,Kimi成了我的第二选择,得当表明代码。在文章润色上稍逊于ChatGPT。特别指出!!!Kimi很得当阅读大量文章并进行整理对比,这是Kimi的一大亮点。

ChatGLM:单纯对话上并不出彩,但是文档剖析精读很精彩,用于平常阅读文献,精度并梳理文章大抵脉络,表现很不错。
其他没怎么用过,临时不做评价。
使用AI工具渐渐精读代码

手册中使用的是通义千问,这里我换一种AI工具,使用kimi进行精读:
返回的结果如下:

这段代码是一个完备的图像和文本处理流程,主要分为以下几个部门:

  • 情况预备与依靠安装

    • 使用pip命令安装所需的Python库,包括simple-aesthetics-predictor、data-juicer、pytorch-lightning、peft、lightning、pandas、torchvision和DiffSynth-Studio。

  • 数据加载

    • 从modelscope平台加载名为AI-ModelScope/lowres_anime的数据集,并将其生存在指定的缓存目录。

  • 数据预处理

    • 创建必要的目录布局。
    • 遍历数据会合的图像,将其转换为RGB格式并生存到指定路径。
    • 同时,天生包含文本和图像路径的元数据文件。

  • 数据配置与处理

    • 定义数据处理的配置文件,包括项目名称、数据集路径、并行处理数量、文本和图像键、特别标记等。
    • 执行数据预处理,根据配置文件中的规则过滤图像尺寸和宽高比。

  • 数据处理结果整理

    • 读取处理后的数据,将其转换为Pandas的DataFrame,并生存为CSV文件。

  • 模子加载与预测

    • 加载CLIP模子和处理器,对图像和文本进行处理,获取图像-文本相似度分数。

  • 自定义数据集与加载器

    • 定义自定义的PyTorch数据集类,用于封装处理后的图像和文本数据。
    • 创建数据加载器,用于批量处理数据。

  • 模子训练/推理

    • 通过数据加载器迭代数据,使用CLIP模子进行推理,并打印图像-文本相似度的概率分布。

  • 天生图像

    • 使用Stable Diffusion模子根据给定的提示天生图像,并生存结果。

  • 图像拼接

    • 将天生的多个图像拼接成一张长图,并调整大小。

整体来看,这段代码实现了从数据加载、预处理、配置、处理、结果整理、模子加载与推理、图像天生到最终的图像拼接的完备工作流程。

对于某一段代码,还能继续进行深入提问:
回答如下:

这段代码定义了一个数据预处理的配置文件,用于指定怎样处理图像数据。配置文件采用YAML格式,这是一种常用于配置文件的数据序列化格式,由于它易于阅读和编写。下面是对配置文件中各个部门的具体表明:

  • 配置文件头部注释
    1. # process schedule
    2. # a list of several process operators with their arguments
    复制代码
    这两行是注释,用于说明接下来的配置部门是关于数据预处理操纵的计划,这些操纵将应用一系列的处理算子(operators),每个算子都有其参数(arguments)。
  • 定义预处理操纵列表
    1. process:
    复制代码
    这个关键字process后面跟随的是一个列表,列表中包含了将被执行的预处理操纵。
  • 图像尺寸过滤操纵
    1. - image_shape_filter:
    2.    min_width: 1024
    3.    min_height: 1024
    4.    any_or_all: any
    复制代码

    • image_shape_filter:这是一个图像尺寸过滤的操纵算子,用于确保图像满足一定的尺寸要求。
    • min_width:指定图像的最小宽度,这里是1024像素。
    • min_height:指定图像的最小高度,这里也是1024像素。这意味着全部处理后的图像宽度和高度都不会小于这个值。
    • any_or_all: any:这个参数指定了过滤条件的应用方式。any表示只要图像的宽度或高度满足条件之一即可通过过滤。

  • 图像宽高比过滤操纵
    1. - image_aspect_ratio_filter:
    2.    min_ratio: 0.5
    3.    max_ratio: 2.0
    4.    any_or_all: any
    复制代码

    • image_aspect_ratio_filter:这是一个图像宽高比过滤的操纵算子,用于确保图像的宽高比在指定的范围内。
    • min_ratio:指定图像宽高比的最小值,这里是0.5,意味着宽度至少是高度的一半。
    • max_ratio:指定图像宽高比的最大值,这里是2.0,意味着高度至多是宽度的一半。
    • any_or_all: any:同样,这个参数指定了过滤条件的应用方式。any表示只要图像的宽高比在最小值和最大值之间即可通过过滤。

  • 配置文件写入
    1. with open("data/data-juicer/data_juicer_config.yaml", "w") as file:
    2.     file.write(data_juicer_config.strip())
    复制代码
    这部门Python代码的作用是将上面定义的YAML格式的配置字符串写入到指定的文件路径中。strip()函数用于移除字符串首尾的空白字符,包括换行符,以确保配置文件的格式正确。
总的来说,这段代码定义了一个数据预处理的配置,其中包括了对图像尺寸和宽高比的过滤规则,并将这个配置写入到一个YAML文件中,以便后续的数据预处理程序可以读取并应用这些规则。

prompt:你是首席软件工程师。请表明这段代码:{{code}}
添加注释并重写代码,用注释表明每一行代码的作用。末了分析复杂度。
基于话剧的连环画天生

使用AI工具天生提示词

输入prompt如下:
你是一个文生图专家,我们如今要做一个实战项目,就是要编排一个文生图话剧
话剧由8张场景图片天生,你需要输出每张图片的生图提示词
具体的场景图片
1、女主正在上课
2、开始睡着了
3、进入梦乡,梦到自己站在路旁
4、王子骑马而来
5、两人相谈甚欢
6、一起坐在马背上
7、下课了,梦醒了
8、又回到了学习生活中
生图提示词要求
1、风格为古风
2、根据场景确定是使用全身照旧上半身
3、人物形貌
4、场景形貌
5、做啥事变
例子:
古风,水墨画,一个玄色长发少女,坐在教室里,盯着黑板,深思,上半身,红色长裙

根据您提供的场景和要求,以下是每张场景图片的生图提示词:

  • 上课场景

    • 提示词:古风,丹青画卷,一个端庄奇丽的少女,坐在古色古香的教室里,用心致志地听讲,全身,青丝如瀑,身着素雅学袍。

  • 睡着场景

    • 提示词:古风,静谧午后,一个舒适的少女,头轻靠在书桌上,进入了梦乡,上半身,眼帘低垂,长发轻披,周围书卷气息。

  • 梦乡路旁

    • 提示词:古风,梦幻瑶池,一个身着俊逸长裙的少女,站在蜿蜒小路旁,眼神迷离,全身,周围围绕着朦胧的雾气。

  • 王子骑马而来

    • 提示词:古风,英雄史诗,英俊的王子骑着骏马,驰骋在古道之上,全身,身着华贵战袍,英姿飒爽,马鬃随风飘扬。

  • 相谈甚欢

    • 提示词:古风,花前月下,少女与王子并肩而立,言笑风生,上半身,两人目光交汇,周围是盛开的花朵和柔和的月光。

  • 坐在马背上

    • 提示词:古风,浪漫征途,少女轻盈地坐在王子的马背上,两人共享一段旅程,全身,周围是辽阔的草原和远处连绵的山脉。

  • 梦醒下课

    • 提示词:古风,实际回归,少女从梦中醒来,回到了教室的实际,上半身,眼中带着一丝渺茫,周围是同砚们的喧嚣声。

  • 学习生活

    • 提示词:古风,好学苦练,少女重新投入到紧张的学习中,全身,手中拿着书卷,神情专注,周围是充满学术气息的书院。

这些提示词结合了古风元素和每个场景的特点,旨在引导天生符合要求的文生图。

根据task1步骤天生图像

接着按照task1的步骤,天生图像
天生图像结果展示










免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

滴水恩情

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表