光之使者 发表于 2024-9-8 02:14:16

AIGC 大模子辅助数据分析案例-省份都会信息精准提取

「如果 AI 应用者,没有任何认知框架底子,直接让 AI 猛干,那么,他将一事无成。」
    以我所在的数据领域工作,AI 直接上手完成一份分析陈诉,险些是不可能完成的使命。
AI 不知道你们公司有哪些系统,系统里又有哪些数据库,数据库里的表之间的关联是什么,各字段代表什么寄义。乃至有些字段有特殊业务寄义,或者已经弃用了,AI 通通不知道。
这么看来,好像 AI在数据分析领域就是废物,办理不了任何问题,更无法直策应用到工作上。
    其实不然。当今 AI 的能力,能做你的超级辅助。当然,核心还得是人,这对个人的能力要求更高了。然而,对人的要求主要是什么呢?一言蔽之,快速获取框架、快速提炼和总结输出的能力。
    我们来看一个我碰到的实际案例,案例很小,但是用 AI 办理的思路很有启发。
使命是这样的,你的老板给你了一堆非常不规范的地点,必要从地点中提取规范的省份和都会信息。地点长这鬼样:

https://img-blog.csdnimg.cn/img_convert/be86bbe7dfa60edb6f30dfd8047c64a4.png
    如果让你做这部门数据清洗,给你 30s 时间,思考一下?
30s 时间到!
    发现了吗?这些地点极其之乱,乱成什么样呢?(这个是 AI 总结的哦)

[*] 地点格式多样:地点中包罗省、市、区、街道、门牌号、楼层、房间号等信息,且次序和格式不统一。
[*] 省份信息不明白:部门地点中直接提到了省份名称,如“浙江省杭州市”,而有些则只提到了都会,如“广州市天河区”。
[*] 特殊地域标识:有些地点中包罗了特殊地域的标识,如“中国(四川)自由商业试验区”、“中国(上海)自由商业试验区”。
[*] 非地点信息:有些文本看起来像地点的一部门,但实际上并不是地点信息,如“广州市天河区市场监督管理局”。

    你可能会想,我筛选关键字,比如,“广州”,手工辨认后,把“广州市”填入都会,广州市归属广东省,再在省份列填入“广东省”。几十行还好,花个半个小时、 一个小时能还能忍忍。那如果有几百行,几千行地点呢?
    头痛么?头痛就对了。这个时候,告急 AI !当然,这里也是有本领(prompt)的,本领后面再说。就用咱中国的大模子之光 kimi 来做个示范。这个是 kimi 告诉我的解题思路。看一下 kimi 是怎么思考的。
kimi 的回答
1 、待处理地点数据特性分析


https://img-blog.csdnimg.cn/img_convert/b4f3dc9cb44e5aaa3d62e930dc28eac8.png
2 、提供办理问题的方法和思路

https://img-blog.csdnimg.cn/img_convert/fdf10c651afb22efdb6899b624c7ef5d.png
3 、逐步提供可操作的执行步骤


https://img-blog.csdnimg.cn/img_convert/f4b019416c81481be9d7951500c12b07.png
4 、跟你商量这个思路行不行,不符合咱还可以调整


https://img-blog.csdnimg.cn/img_convert/ea7c70e6cb453d6162a82810d5e99f94.png
看看,如果是你的员工,你是不是开心坏了。
能拆解使命,分析特性,并根据待处理的数据,提供大抵的解题思路,还能告诉你这么做的思考来由。给了你一步一步操作的方法,还能有商有量,快速调整。
这样的员工,去哪里找!
实操和互动
如果提示词是启动,迈出了第一步。那么,接下来,你的实操以及跟 AI 的互动,则是问题可否实际落地办理的关键。你,就是现实世界和假造世界交互过程的关键纽带。
在和AI 商量完你认可的办理思路后。你,就可以按照步骤,执行一步步使命。
先看第一步,提取都会信息。

https://img-blog.csdnimg.cn/img_convert/dfc5f2ca41deda4d8f569dd1c32af1e3.png
可以看到,kimi 给了你很多方法供你选择。你逐个利用 kimi 给的公式,在 excel 上实验,直到能完成提取使命。
眼尖的小伙伴是不是发现了,我截图中,kimi 提供的方法是有问题的。它把“浙江省杭州市西湖区”这个字符串里的“西”当做特殊字符来定位都会信息了。如果待分析的地点是“广州市黄埔区”,excel 公式就会报错。
怎么办?告诉 AI,让它改。

https://img-blog.csdnimg.cn/img_convert/3e54b9fd804692a3f6bd712c8dd64f5c.png
可以看到,kimi 提供了正则表达式和不消正则表达式提取的两种选择。你可以根据你的 excel 版原来机动选择实现方式。
完成之后,你拿到了大量的辨认后的规范都会信息。

https://img-blog.csdnimg.cn/img_convert/b647e457be914de709fe2a946f307a27.png
就可以到第二步了,找省份。
由于大量的地点里根本不包罗省份信息,比方这个地点“佛山市南海区桂城街道季华东路”。乃至有些省份是直辖市,他们的市,就即是省,比如北京市。还有一些省是少数民族自治区,比方广西,不叫广西省,精确的叫法是广西壮族自治区。怎么办?
统统问 AI。这是我的问法。

https://img-blog.csdnimg.cn/img_convert/e9c7964856ac5dbf09a5eca4db89122a.png

https://img-blog.csdnimg.cn/img_convert/56bdd2e9ffb0ffd615a6d68f5b1297f2.png
kimi 还留着上一个 prompt 的记忆,还以为我在找他要办理方式呢。实际上,我只必要它直接返回省份匹配的结果给我。
也是一样,不要客气,直接让它改。

https://img-blog.csdnimg.cn/img_convert/d1e7265b4b849dd97d765b261d6349a9.png
很好,使命看似完成了。
但是,贴到 excel 的时候又有了个小问题,所有的数据挤在一行,没办法切行存储。

https://img-blog.csdnimg.cn/img_convert/6bbea0dd22922db6b498a932c24a7709.png
怎么办?再调整。kimi 绝对是任劳任怨的好员工。

https://img-blog.csdnimg.cn/img_convert/737b9450c83fdbb1066f6ab53d3aab2f.png
直到这一步,这个使命就完成了七七八八了。kimi 给我的表格,是可以直接贴到 excel 里,执行 vlookup 操作的。
讲授到这里,大部门的使命已经完成了。

https://img-blog.csdnimg.cn/img_convert/2666e497ffac21c4e28bdf9b2b1d2c1c.png
    细心的小伙伴可能会注意到,这里还有一些问题没有办理的。
这个就必要通过再与 kimi 提问,互动办理了。比方,这个地点原来就连都会信息都没有的话,那没办法。只能筛选出来,一批批问kimi 了。
在没有用 api 接口调用服务的情况下,这类操作不是很保举,只能是一次性操作。下次再碰到雷同使命,还得再手动执行,问一次 kimi 。
看一百次不如本武艺动操作一次。好了,小伙伴们探索去吧。kimi 免费哦。
感悟时间

    现实物理世界和假造世界(AI)之间还有巨大的鸿沟。AI所提供的办理方案,你是没办法直接套用到现实世界中的。这条沟必要人去填!
    对于未来的儿童教育,更必要极速拓宽视野。在某一个专业领域深扎,思考、内化吸取、转化、表达、整合、归纳能力。当然,还必要有一具康健的体魄,才华去好好享用这个世界。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: AIGC 大模子辅助数据分析案例-省份都会信息精准提取