祗疼妳一个 发表于 2025-2-12 15:36:12

我用AI做数据分析之数据洗濯

我用AI做数据分析之数据洗濯

AI与数据分析的融合结果怎样?
这里描述自己在使用AI进行数据分析(数据洗濯)过程中的几个小故事:
1. 变量名的翻译

有一个项目是某医生自己收集的数据,变量名使用的是中文,分析的时候一般会变革成英文更方便一些,传统的手段需要查找变量名的中文,然后使用代码更换原来的列名,不复杂,无奈变量名较多,处置惩罚起来还是会耗费不少的时间。
这种环境下,我尝试着将数据表格提交给AI,使用天然语言让它把“列名翻译成英文全称并符合python的命名方式”,结果可以说是非常不错,返回的新数据表中,正确地给出了符合要求的列名,也很效率。
2. 英文缩写改全称

另外一个项目,列名是缩写,有一些我自己都不知道什么寄义,在我没有具体提供上下文的环境下,让AI把缩写改成英文全称。
AI也很好地完成了这个工作,并在对话框中表明了变量名的寄义。
https://i-blog.csdnimg.cn/direct/65975617ab894f35a1f56fac81b8a975.png#pic_center
3. 纠正录入错误

在另外的一个项目中,部门的变量里面误录入了制表符-“\tyes”等,平时不太处置惩罚这种环境,一个一个查抄也很繁琐,以是尝试使用AI来处置惩罚这个题目。与AI交换过程中,我并没有具体指出是什么样的录入错误,只说查抄可能的录入错误,AI就能够将这些错误查抄出来并进行纠正。
令人意外的是AI还检测出一个数值型数据的录入错误,这是没有专业知识,不容易发现的。
类似的环境,尚有在自己收集的一些数据中,录入不统一的环境,比如有的中文“是”,有的是英文“yes”, 天然语言描述起来很容易,代码写起来就很复杂,我觉得AI也可以处置惩罚。
https://i-blog.csdnimg.cn/direct/7cb08b85f328474bb1cbef2f8fb8d9cc.png#pic_center
以上体验是基于豆包AI数据分析模块的体验,总体来说都属于语言相关的范畴,感觉是AI可以表现很好的环节,由于AI本身是LLM(大语言模子)。这一部门,严格说没有涉及LLM天生代码的部门,由于代码是在AI发现了题目之后,用来修改数据表使用的。
结论是在这一部门上AI的表现是相称合格的。AI的本领在逐步加强,怎样改变即有的数据分析流程,让我们拭目以待,我也会通过一些具体的小例子来向大家描述AI在数据分析过程中的表现。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 我用AI做数据分析之数据洗濯