王海鱼 发表于 2024-8-28 07:37:59

旅游大数据的数据收罗模子和数据分析体系

小白学习ing


媒介

旅游大数据的数据收罗模子和数据分析体系,以六安市旅游景点为例,收罗携程网站上游客对景点的评价。对数据进行情感分类后,得到情感分析机器学习的数据集,进而训练情感分析模子。用训练好的模子制作简单的问答体系,实现对用户输入的文本进行情感预测。不仅如此,将六安市景点的数据进行简单的数据分析,包括热门景点分析、时间趋势分析和关键字词频统计。
GitHub地址:LSTM-DataAnalysis,欢迎下载指正!
一、头脑导图

https://i-blog.csdnimg.cn/direct/fddff15657364455b562f7a044b52032.png#pic_center
二、过程

1.数据的收罗与存储

我尝试了两个方法。
方法一是使用八爪鱼收罗器。下载后直接使用即可,输出为csv文件。
方法二是采用 Selenium 和 Chrome 欣赏器自动化工具。
GitHub地址:Spider_Xiecheng_Comments
      1.1版本题目       chromedriver 和 chrome 欣赏器的版本必要对应。我的代码中有 chromedriver.exe 和对应的 chrome 欣赏器安装包。       1.2数据收罗       编写 python 代码,通过 CSS 选择器获取必要的数据,生存在数组中。用户输入爬取的景点名称和对应的携程网址,将收罗效果输出为csv文件。       1.3数据存储       使用 SQLite Expert Professional 将csv文件转换为db文件,然后直接将必要的db文件生存在项目文件夹下。py文件必要时直接导入包即可使用。   
   import sqlite3    2.情感分析模子创建

      2.1安装库       项目能跑首先要安装各种必要的库,而且版本对应也要非常注意。   
在命令行:使用 conda 创建房间,进入房间,进入项目文件夹,下载好这个项目必要的包。   
在base创建房间:   conda create -n 房间名字 python=3.9      部分 conda 命令
进入房间:conda activate 房间名字
安装依赖:


[*]pip install -r requirements.txt
[*]conda install --file requirements.txt
[*]pip install 要安装的包名 -i mirrors.aliyun.com... --trusted-host mirrors.aliyun.com
查看已安装哪些依赖:conda list
       2.2训练运行程序       在 pycharm 编辑py代码(大概jupyter)   
   训练运行程序   
法一:(命令行)   python train.py --data_path data/test.csv --dataset_type classification --save_path model_save --log_path log   
法二:(编辑器)run,编辑器的 console   
pycharm 选择 python interperter   
conda executable 选择:安装的anaconda的位置下的condabin\conda.bat   
environment 选择:刚刚创建的那个房间       2.3基于LSTM的情感分析模子       定义一个简单的基于LSTM的神经网络模子,它包括输入层、LSTM层、全连接层、Dropout层和输出层。最后输出两个神经元,分别代表着消极和积极的概率。    3.数据分析体系

使用 Flask 框架,设置路由以及通过AJAX向Flask发送数据,实现各个页面的跳转,数据库数据的调用,欣赏器与服务器的数据交互。
      3.1 热门景点分析和时间趋势分析       使用 JavaScript 的 Echart 插件,绘制对应的柱状图和折线图。该景点的评论数量的多少,反映了景点的热门程度。一方面给游客选择景点提供参考,另一方面分析不同月份景点的热门程度,帮助游客选择符合的出行时间。       3.2 词云关键字提取       使用 python 的 wordcloud 库绘制词云树,对收罗的用户评论进行关键词提取,采用一棵树的图片作为遮罩图片。       3.3 六安市地图绘制       在这个网站的下载的:   echarts六安市地图加立体效果代码下载,感谢分享。       3.4 情感预测交互       实现一个简单的问答体系,用户输入一句话后点击提交按钮,欣赏器接收数据通报给服务器,调用训练好的模子进行情感预测,返回效果。    三、参考

1、携程网景点评论爬虫
2、Flask模子部署教程
3、Python+Flask框架的数据可视化网站
4、情感分析可视化界面
5、基于Bert和双向LSTM的情感分类
总结

紧张是作为学习的一个小项目,许多地方都是用简单的办法办理的。紧张目的就是能够实现这些功能就行,以是另有许多可以改进的地方。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 旅游大数据的数据收罗模子和数据分析体系