运维.售后
论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
博客
Blog
ToB门户
了解全球最新的ToB事件
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
大数据
›
数据仓库与分析
›
旅游大数据的数据收罗模子和数据分析体系 ...
旅游大数据的数据收罗模子和数据分析体系
王海鱼
金牌会员
|
2024-8-28 07:37:59
|
显示全部楼层
|
阅读模式
楼主
主题
921
|
帖子
921
|
积分
2763
小白学习ing
媒介
旅游大数据的数据收罗模子和数据分析体系,以六安市旅游景点为例,收罗携程网站上游客对景点的评价。对数据进行情感分类后,得到情感分析机器学习的数据集,进而训练情感分析模子。用训练好的模子制作简单的问答体系,实现对用户输入的文本进行情感预测。不仅如此,将六安市景点的数据进行简单的数据分析,包括热门景点分析、时间趋势分析和关键字词频统计。
GitHub地址:LSTM-DataAnalysis,欢迎下载指正!
一、头脑导图
二、过程
1.数据的收罗与存储
我尝试了两个方法。
方法一是使用八爪鱼收罗器。下载后直接使用即可,输出为csv文件。
方法二是采用 Selenium 和 Chrome 欣赏器自动化工具。
GitHub地址:Spider_Xiecheng_Comments
1.1版本题目 chromedriver 和 chrome 欣赏器的版本必要对应。我的代码中有 chromedriver.exe 和对应的 chrome 欣赏器安装包。 1.2数据收罗 编写 python 代码,通过 CSS 选择器获取必要的数据,生存在数组中。用户输入爬取的景点名称和对应的携程网址,将收罗效果输出为csv文件。 1.3数据存储 使用 SQLite Expert Professional 将csv文件转换为db文件,然后直接将必要的db文件生存在项目文件夹下。py文件必要时直接导入包即可使用。
import sqlite3
2.情感分析模子创建
2.1安装库 项目能跑首先要安装各种必要的库,而且版本对应也要非常注意。
在命令行:使用 conda 创建房间,进入房间,进入项目文件夹,下载好这个项目必要的包。
在base创建房间: conda create -n 房间名字 python=3.9
部分 conda 命令
进入房间:conda activate 房间名字
安装依赖:
pip install -r requirements.txt
conda install --file requirements.txt
pip install 要安装的包名 -i mirrors.aliyun.com... --trusted-host mirrors.aliyun.com
查看已安装哪些依赖:conda list
2.2训练运行程序 在 pycharm 编辑py代码(大概jupyter)
训练运行程序
法一:(命令行) python train.py --data_path data/test.csv --dataset_type classification --save_path model_save --log_path log
法二:(编辑器)run,编辑器的 console
pycharm 选择 python interperter
conda executable 选择:安装的anaconda的位置下的condabin\conda.bat
environment 选择:刚刚创建的那个房间 2.3基于LSTM的情感分析模子 定义一个简单的基于LSTM的神经网络模子,它包括输入层、LSTM层、全连接层、Dropout层和输出层。最后输出两个神经元,分别代表着消极和积极的概率。
3.数据分析体系
使用 Flask 框架,设置路由以及通过AJAX向Flask发送数据,实现各个页面的跳转,数据库数据的调用,欣赏器与服务器的数据交互。
3.1 热门景点分析和时间趋势分析 使用 JavaScript 的 Echart 插件,绘制对应的柱状图和折线图。该景点的评论数量的多少,反映了景点的热门程度。一方面给游客选择景点提供参考,另一方面分析不同月份景点的热门程度,帮助游客选择符合的出行时间。 3.2 词云关键字提取 使用 python 的 wordcloud 库绘制词云树,对收罗的用户评论进行关键词提取,采用一棵树的图片作为遮罩图片。 3.3 六安市地图绘制 在这个网站的下载的: echarts六安市地图加立体效果代码下载,感谢分享。 3.4 情感预测交互 实现一个简单的问答体系,用户输入一句话后点击提交按钮,欣赏器接收数据通报给服务器,调用训练好的模子进行情感预测,返回效果。
三、参考
1、携程网景点评论爬虫
2、Flask模子部署教程
3、Python+Flask框架的数据可视化网站
4、情感分析可视化界面
5、基于Bert和双向LSTM的情感分类
总结
紧张是作为学习的一个小项目,许多地方都是用简单的办法办理的。紧张目的就是能够实现这些功能就行,以是另有许多可以改进的地方。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
王海鱼
金牌会员
这个人很懒什么都没写!
楼主热帖
在Winform开发中,使用Async-Awati异步 ...
Vue 和 Django 前后端分离实践 (注册 ...
如何在 Vue 3 中使用<script lang=“t ...
C#依赖注入(直白明了)讲解 一看就会系 ...
一条SQL的执行原理
go中 for循环的坑
教务管理系统——数据库课程设计mysql+ ...
Vulnhub之Monkeybox详细测试过程(不同 ...
银河麒麟V10安装达梦数据库DM8 ...
2023大数据面试总结
标签云
存储
服务器
快速回复
返回顶部
返回列表