数据清洗工具flashtext,效率直接提升了几十倍数

打印 上一主题 下一主题

主题 897|帖子 897|积分 2691

在平常的一些的小规模的数据的过滤、清洗过程中使用最多的就是正则表达式,但是随着数据规模的增大,正则表达式就显得有些心有余力不足了。
【阅读全文】
正则表达式在一个 10k 的词库中查找 15k 个关键词的时间差不多是 0.165 秒。但是对于 Flashtext 而言只需要 0.002 秒。因此,在这个问题上 Flashtext的速度大约比正则表达式快 82 倍。

从上面的示例图的性能对比中,可以发现随着我们需要处理的字符越来越多,正则表达式的处理速度几乎都是线性增加的。然而,Flashtext 几乎是一个常量。
1、准备flashtext环境
通过pip的方式来安装flashtext,或是其他的方式也是可以的,这里默认使用的是清华大学的镜像站。
  1. pip install flashtext -i https://pypi.tuna.tsinghua.edu.cn/simple
复制代码
在准备好flashtext环境以后,来看一下flashtext重要的使用过程,帮助我们能更好的完成数据清洗操作。
2、添加关键词
这里添加关键词时是通过单个关键词的来添加到关键词词库中,使用add_keyword函数来添加。第一次参数表示需要添加的关键词,第二个参数则表示为第一个关键词的别名,如果关键词被找到了则显示为别名的形式,若是没有使用第二个参数作为别名则还是显示原有的名称。
  1. from flashtext import KeywordProcessor
  2. # 初始化关键词库处理器
  3. processor = KeywordProcessor()
  4. # 常规方式添加关键词
  5. processor.add_keyword('Python')
  6. # 别名方式添加关键词
  7. processor.add_keyword('Scala', 'Java')
复制代码
这样分别使用两种方式已经将需要的关键词添加到词库处理器中了。
3、提取关键词
通过上一步添加关键词,现在词库处理器中已经存在有关键词的信息了,再使用extract_keywords将关键词提取出来即可。
  1. # 在一个字符串中提取出关键词信息
  2. found = processor.extract_keywords('I like Python and Scala.')
  3. # 结果
  4. print(found)
  5. # ['Python', 'Java']
复制代码
结果出来了,跟我们预想的是一样的,并Scala也显示为了Java。
4、替换关键词
替换关键词使用的是replace_keywords函数,前提是词库中拥有别名的词才能被替换,就像上面的Scala被显示成了的Java一样。
替换一个字符串中的Scala关键词,由于Scala对应的别名是Java,所以一个字符串中的Scala应该被替换为Java。
  1. replaced = processor.replace_keywords('I like Scala.')
  2. # 结果
  3. print(replaced)
  4. # I like Java.
  5. # Scala 果真就被替换为了Java。
复制代码
5、获取所有关键词
有些时候,在KeywordProcessor词库处理器中添加了哪些关键词可能自己都记不清楚了,这个时候可以使用get_all_keywords函数来获取当前的所有关键词。
  1. all_keywords = processor.get_all_keywords()
  2. # 结果
  3. print(all_keywords)
  4. # {'python': 'Python', 'scala': 'Java'}
复制代码
6、批量的添加关键词
当关键词库需要更多的关键词的时候,可以通过列表或是字典的方式来进行批量的添加。对应的函数分别是add_keywords_from_list、add_keywords_from_dict函数。
  1. # 初始化一个字典通过用来做批量添加
  2. dict_ = {
  3.     'java': ['java_ee', 'java_se', 'java_me'],
  4.     'python': ['pandas', 'all']
  5. }
  6. # 通过字典的方式来批量添加关键词
  7. processor.add_keywords_from_dict(dict_)
  8. # 从批量添加的关键词中匹配关键词
  9. result = processor.extract_keywords('looking for java_ee and pandas.')
  10. # 结果
  11. print(result)
  12. # ['java', 'python']
  13. # 通过列表的方式批量添加关键词
  14. processor.add_keywords_from_list(['scala', 'python', 'scala', 'go'])
  15. # 通过get_all_keywords查看一下所有关键词
  16. all_keywords = processor.get_all_keywords()
  17. # 结果
  18. print(all_keywords)
  19. # {'python': 'python', 'pandas': 'python', 'scala': 'scala', 'java_ee': 'java', 'java_se': 'java', 'java_me': 'java', 'all': 'python', 'go': 'go'}
复制代码
发现所有的关键词已经添加到词库处理器中,并且重复的不会再次添加。
7、批量删除关键词
批量删除词库处理器中的关键词同样是有两种方式,一个是列表、另一个是字典。对应的函数分别是remove_keywords_from_list、remove_keywords_from_dict函数。
  1. # 批量移除列表中的关键词
  2. processor.remove_keywords_from_list(['python','java_ee','java_me'])
  3. # 批量移除字典中的关键词
  4. processor.remove_keywords_from_dict({'python': ['pandas','all']})
  5. # 通过get_all_keywords查看一下所有关键词
  6. all_keywords = processor.get_all_keywords()
  7. # 结果
  8. print(all_keywords)
  9. # {'scala': 'scala', 'java_se': 'java', 'go': 'go'}
复制代码
发现需要移除的关键词已经被全部移除了。
8、执行效率对比
为了更可观的展示效果,找了两个flashtext在搜索和替换关键词过程中的效率对比图可以一目了然。
flashtext、正则表达式搜索效率对比

flashtext、正则表达式搜索替换对比

【往期精彩】

一个help函数解决了python的所有文档信息查看...
python 自定义异常/raise关键字抛出异常
python 本地音乐播放器制作过程(附完整源码)
自动化工具:PyAutoGUI的鼠标与键盘控制,解放双手的利器!
来自程序猿的生日蛋糕你见过吗?

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

乌市泽哥

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表