DeepSeek的多模态大模子Janus实测,以及怎样运行web demo

打印 上一主题 下一主题

主题 1943|帖子 1943|积分 5829

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
文章创作不易,贫困大家点赞关注转发一键三连。也可以关注文章结尾后我的公众号与我接洽。

本日一起床看公众号和抖音就被DeepSeek的Janus刷屏了。都在说Janus怎样怎样。但是我没有看到一篇文章讲怎样实操调用Janus的。因此我自己下载了Janus希望现实用代码测试一下。这中间发现目前DeepSeek的原始代码还是有一些小题目标,并不是下载了以后就能用。
固然末了我都解决了这些题目。因此记录下来以供大家参考。另外讲一下我利用Janus的评价。
因为机器显卡不够高端,所以我只试用了Janus-1.3B和Janus-Pro-1B。现实结果,岂论是图片理解还是文生图能力都非常普通。图片理解方面大体和MiniCPM-V, moondream等能力相差不大。在文生图方面则只能生成非常大略的图片,无法和有着广大生态的Stable Diffusion, Midjourney 以及FLUX相比。
固然了,因为我对文生图领域不太熟悉,很可能在应用了其他模子后能生成更好。
文章末了部分有运行的结果。假如你对自己把模子跑起来不感兴趣的话。可以直接跳到文章结尾部分看运行结果。
下面是怎样运行Janus:
下载代码和模子

起首下载Github上Janus的代码:
  1. git clone https://github.com/deepseek-ai/Janus.git
复制代码
然后就是下载模子。这里必要注意的是Janus的模子都在huggingface上访。在国内访问是有题目标。还好DeepSeek也在ModelScope上上传了Janus。
起首确保git 安装了lfs
  1. git lfs install
复制代码
然后下载。譬如Janus-Pro-1B是下面的下载。根据我自己的实测,和Janus-1.3B相比Janus-Pro-1B的能力要更强一些。
  1. git clone https://www.modelscope.cn/deepseek-ai/Janus-Pro-1B.git
复制代码
Janus-1.3B
  1. git clone https://www.modelscope.cn/deepseek-ai/Janus-1.3B.git
复制代码
安装python库

为了让文章内容更加精简,我就不从头讲怎样安装python以及利用python假造情况了。信赖看我们文章的大部分读者都已经会了。不会的话可以上网上查一下。
我们起首必要修改一下Janus代码目录下的requirements.txt。之所以要修改,是因为DeepSeek原始的requirements.txt是错的,用原始的代码安装会有很多题目。
在安装之前,确保你有一个还可以的NVidia显卡并已经下载了CUDA。之后利用这个requirements.txt​​​​​​​
  1. transformers>=4.38.2
  2. timm>=0.9.16
  3. accelerate
  4. sentencepiece
  5. attrdict
  6. einops
  7. # for gradio demo
  8. gradio
  9. gradio-client
  10. mdtex2html==1.3.0
  11. pypinyin==0.50.0
  12. tiktoken==0.5.2
  13. tqdm==4.64.0
  14. colorama==0.4.5
  15. Pygments==2.12.0
  16. markdown==3.4.1
  17. timm
  18. attrdict 
  19. einops  
  20. accelerate
  21. bitsandbytes
  22. flash_attn
复制代码
之后利用下面下令进行安装:
  1. pip install -r requirements.txt
复制代码
注意我把原来requirements.txt中的pytorch删除了。你必要手动安装CUDA版本的pytorch和torchvision等。你可以通过https://pytorch.org/get-started/locally/ 获取到得当你CUDA版本的安装下令。比如我的CUDA版本是12.1,那么就是这个下令:
  1. pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
复制代码
修改代码并运行web demo

修改demo/app.py:
在开头import部分,添加以下代码:​​​​​​​
  1. import syssys.path.append('../')
复制代码
再找到之前11行的model_path定义,把
  1. model_path = "deepseek-ai/Janus-1.3B"
复制代码
修改为
  1. model_path = "D:/DEV/Janus-Pro-1B"
复制代码
其中D:/DEV/Janus-Pro-1B是我机器上Janus-Pro-1B的模子目录。你应当改成你对应的目录。
之后到demo目录下运行app.py:​​​​​​​
  1. cd demopython ./app.py
复制代码
之后打开 http://127.0.0.1:7860访问web ui。
运行结果

图片理解

我们把我们公众号"软件开发与发掘机技能"的logo通报给Janus,并且写以下提示词:
"请描述图片”
Janus Pro 1B的复兴:
"The image depicts a construction vehicle, specifically a bulldozer, with a visible bucket attachment. The bulldozer is represented in a simple, stylized manner with a yellow outline and a black background. The bucket is shown extending from the front of the bulldozer. There are also some blue code symbols on the front of the bulldozer's cabin, indicating that the image might be related to construction or engineering."
可见这个引擎的默认语言是英文。假如希望它用中文答复,可以提问"请用中文描述图片"。
以下是复兴:
"这是一张表现发掘机的图片。发掘机的主体部分是金色的,带有玄色的履带和两个玄色的圆形轮胎。发掘机的铲斗部分也是金色的,并且位于发掘机的右侧。发掘机的驾驶舱部分是矩形的,上面有蓝色的代码符号,表现这是与编程或自动化相关的装备。整个图片的背景是玄色的,使得发掘机图案更加突出。"
图片生成

我们利用这个提示词生成图片:
"一个歌手在舞台上表演歌唱,写实风格,要贴近真实天下场景"
结果生成的图片都是类似如许的:


我们再尝试生成一个更简单的场景:
"一朵粉红色的荷花开在池塘里,附近有绿色的荷叶"
这是生成的图片:


你可能能看到它生成了五张图片。里面这个是唯逐一个有花的。
所以生成的图片质量不是很好。SD大概Midjourney之类也必要定制化的模子才气生成比较好的图片。之后我也会研究一下怎么才气让它生成的水平更高。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

北冰洋以北

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表