python-windows10普通笔记本跑bert mrpc数据样例0.1.048

打印 上一主题 下一主题

主题 653|帖子 653|积分 1961

背景

看了先容说可以在gpu或者tpu上去微调,当前没情况,所以先在windows10上跑一跑,看是否能顺利进行,目标就是训练的过程中没有报错就行
参考章节

参考这个链接https://github.com/google-research/bert/tree/master?tab=readme-ov-file,此中的这个章节Sentence (and sentence-pair) classification tasks
获取数据

文章提高的使用 GLUE data by running this script(https://gist.github.com/W4ngatang/60c2bdb54d156a41194446737ce03e2e),但是我使用这个脚本下载不了,由于是内网,没有办法只能手动下载了,方法如下

  • 下载download_glue_data.py这个脚本后
  • 找到第39和40行,将内里的链接打开生存文件就可以得到msr_paraphrase_train.txt和sr_paraphrase_test.txt文件了
  1. MRPC_TRAIN = 'https://dl.fbaipublicfiles.com/senteval/senteval_data/msr_paraphrase_train.txt'
  2. MRPC_TEST = 'https://dl.fbaipublicfiles.com/senteval/senteval_data/msr_paraphrase_test.txt'
复制代码

  • 数据不大,我直接修改的文本格式为tsv,末了得到test.tsv和train.tsv文件
  • 打开这个链接下载另外一个须要的数据dev_ids.tsv
    https://raw.githubusercontent.com/MegEngine/Models/master/official/nlp/bert/glue_data/MRPC/dev_ids.tsv
  • 解释掉download_glue_data.py内里的下面的代码
  1. #     try:
  2. #         urllib.request.urlretrieve(TASK2PATH["MRPC"], os.path.join(mrpc_dir, "dev_ids.tsv"))
  3. #     except KeyError or urllib.error.HTTPError:
  4. #         print("\tError downloading standard development IDs for MRPC. You will need to manually split your data.")
  5. #         return
复制代码

  • 将dev_ids.tsv的文件放在–data_dir下面的MRPC内里
  • 运行download_glue_data.py文件天生数据如下
  1. python .\download_glue_data.py --tasks=MRPC --data_dir=D:\jpdir\bert\glue_data\MRPC\fin --path_to_mrpc=D:\jpdir\bert\glue_data\MRPC
复制代码

8. 将天生的dev.tsv文件放在python run_classifier.py脚本的data_dir目次下
下载bert模型

下载bert-base-uncased模型,如下图

下载bert代码

将这个链接https://github.com/google-research/bert/tree/master?tab=readme-ov-file的代码clone下来到本地,进入到这个文件夹里,执行如下下令即可:
  1. python run_classifier.py --task_name=MRPC --do_train=true --do_eval=true --data_dir=D:\jpdir\bert\glue_data\MRPC --vocab_file=D:\jpdir\bert\bert-base-uncased\bert-base-uncased\bert-base-uncased\vocab.txt --bert_config_file
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

南七星之家

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表