直接用字符串方式 split(“。“) 来切句,固然能把句子拆开,但无法和 BERT ...

打印 上一主题 下一主题

主题 1459|帖子 1459|积分 4377

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
❗️直接字符串切割的问题:


  • 会丢失原始 token 的起止位置(比如第几个 token)
  • 无法和 BERT 模型的 token 位置对应(embedding 用不上)
  • 碰到标点、空格、英语等语言混合情况,会切禁绝
这里 无法和 BERT 模型的 token 位置对应该如何明白,下面详细解释。
   “无法和 BERT 模型的 token 位置对应”
  这个意思是:
如果你直接用字符串方式 split("。") 来切句,固然能把句子拆开,但BERT tokenizer 是按子词(subword)来切的,不是按字或句子切的,以是它的 token 和你切出来的句子之间的位置是对不上的。

回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

诗林

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表