ToB企服应用市场:ToB评测及商务社交产业平台

标题: Python爬虫:爬取华为应用市场全部app信息 [打印本页]

作者: 慢吞云雾缓吐愁    时间: 2022-8-29 05:10
标题: Python爬虫:爬取华为应用市场全部app信息
先不着急写程序,先对网站进行分析

目标网址为:https://appgallery.huawei.com/#/Apps 
抓取目标为:app名称 包名 和开发公司名
F12检查发现为动态加载
 
 
 
 检查完发现为动态加载get请求 设置params循环获取全部数据 代码如下:

url = 'https://web-drcn.hispace.dbankcloud.cn/uowap/index'
    headers = {
        '你的': 'ua',
        '你的': '防盗链'

    }

    for c in range(1,17):
        param = {
            'method': 'internal.getTabDetail',
            'serviceType': 20,
            'reqPageNum': {c},
            'uri': f'{d}',
            'maxResults': 25,
            'zone': '',
            'locale': 'zh'
        }
所有数据都拿到 接下来就是提取过程
此时我们发现此时的数据中并没有开发公司的名称 需要点击app跳转后在动态加载中才找到,所以我们需要继续分析跳转页面

 数据已经找到 对url进行分析后发现在挂载内容里只多了个appid 而appid在上一个页面中可以提取到,所以我们只需要进行拼接url即可

  代码如下:
url1 = 'https://web-drcn.hispace.dbankcloud.cn/uowap/index'
                headers1 = {
                    '你的': 'ua',
                    '你的': '防盗链'
                }
                param1 = {
                    'method': 'internal.getTabDetail',
                    'serviceType': 20,
                    'reqPageNum': 1,
                    'maxResults': 25,
                    'uri': f'app|{appid}',
                    'shareTo': '',
                    'currentUrl': f'https%3A%2F%2Fappgallery.huawei.com%2F%23%2Fapp%2F{appid}',
                    'accessId': '',
                    'appid': f'{appid}',
                    'zone': '',
                    'locale': 'zh'
                }
此时完整一页的数据已经可以获取到但是其他分类并没有获取到

 点击后我们发现只有挂载中的uri不同 而uri再上一页也能获取到 那这就好办了 继续构造url然后请求即可

  我用了一个笨方法 逐一点击手动建个列表 将所有的url保存 然后进行循环
  1. uid = [<br>    '33ef450cbac34770a477cfa78db4cf8c','8e62cf6d238c4abdb892b400ff072f43','79bd417da03d470287c0c7c2ef8f2c96','84471de6a7524d4a9242903fbc9bbe8b',<br>    '65696386add14dda8b7ee8a20be03aad','07e66002a01c442990ed5630aa460d48','c946b166e7c34dcab8a8960bf6979dd3','50151113bc4143d0aa7013843ff0ef32',<br>    'ce87048699a64f5db8a90bca7bcf68fd','e3beb74372c44ee899709a038eabfc70','4d5e752fde6c4b33869058a69565171e','24305799357048a4a9585f4f4c05dc1e',<br>    '2d2b18f338244b9db71d1ec30b257f1e','7e04648230ca4bbaa836fa8c027517ba','a29745005a8942b797d3d5ddf6bb1b48','d6566ca265754426b36cc6a12fa1e2cd',<br>    '1f316fc086704f169e7a841341ed05c4','5e4425e03ae44a87a5293dc2d9ebcfde','3ae307aff6c541818f3f9c242f18fd85','3e28c821504e473c9f4990d78d235837',<br>    'ee252e5e36524275b17d5bbee7ab08a5','43285bc8c9344cd2b973165ef8fc9aee'<br>       ]<br>保存的数据 这里只提取了三个  需要的话课追加 只需要在提取代码处增加即可
复制代码
 最后为整体的代码实现:
  1. import requests<br>import time<br>import csv<br><br>uid = [<br>    '33ef450cbac34770a477cfa78db4cf8c','8e62cf6d238c4abdb892b400ff072f43','79bd417da03d470287c0c7c2ef8f2c96','84471de6a7524d4a9242903fbc9bbe8b',<br>    '65696386add14dda8b7ee8a20be03aad','07e66002a01c442990ed5630aa460d48','c946b166e7c34dcab8a8960bf6979dd3','50151113bc4143d0aa7013843ff0ef32',<br>    'ce87048699a64f5db8a90bca7bcf68fd','e3beb74372c44ee899709a038eabfc70','4d5e752fde6c4b33869058a69565171e','24305799357048a4a9585f4f4c05dc1e',<br>    '2d2b18f338244b9db71d1ec30b257f1e','7e04648230ca4bbaa836fa8c027517ba','a29745005a8942b797d3d5ddf6bb1b48','d6566ca265754426b36cc6a12fa1e2cd',<br>    '1f316fc086704f169e7a841341ed05c4','5e4425e03ae44a87a5293dc2d9ebcfde','3ae307aff6c541818f3f9c242f18fd85','3e28c821504e473c9f4990d78d235837',<br>    'ee252e5e36524275b17d5bbee7ab08a5','43285bc8c9344cd2b973165ef8fc9aee'<br>       ]<br>with open('华为应用市场.csv', 'a', encoding='utf-8', newline='') as f:<br>    csv_writer = csv.writer(f)<br>    csv_writer.writerow(['app名称', '应用包名', '开发名称'])<br>for d in uid:<br>    url = 'https://web-drcn.hispace.dbankcloud.cn/uowap/index'<br>    headers = {<br>        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',<br>        'Referer': 'https://appgallery.huawei.com/'<br><br>    }<br><br>    for c in range(1,16):<br>        param = {<br>            'method': 'internal.getTabDetail',<br>            'serviceType': 20,<br>            'reqPageNum': {c},<br>            'uri': f'{d}',<br>            'maxResults': 25,<br>            'zone': '',<br>            'locale': 'zh'<br>        }<br><br>        re = requests.get(url=url,headers=headers,params=param).json()<br>        tiqu = re['layoutData']<br>        for a in tiqu:<br>            bms = a['dataList'][0:]<br>            for bm in bms:<br>                baoming = bm['package']<br>                appid = bm['appid']<br>                name = bm['name']<br>                id = bm['logSource']<br>                # print(baoming)<br>                url1 = 'https://web-drcn.hispace.dbankcloud.cn/uowap/index'<br>                headers1 = {<br>                    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.66 Safari/537.36 Edg/103.0.1264.44',<br>                    'Referer': 'https://appgallery.huawei.com/'<br>                }<br>                param1 = {<br>                    'method': 'internal.getTabDetail',<br>                    'serviceType': 20,<br>                    'reqPageNum': 1,<br>                    'maxResults': 25,<br>                    'uri': f'app|{appid}',<br>                    'shareTo': '',<br>                    'currentUrl': f'https%3A%2F%2Fappgallery.huawei.com%2F%23%2Fapp%2F{appid}',<br>                    'accessId': '',<br>                    'appid': f'{appid}',<br>                    'zone': '',<br>                    'locale': 'zh'<br>                }<br>                re1 = requests.get(url=url1, headers=headers1, params=param1).json()<br>                # print(re1)<br>                # dataList > developer<br>                tiqu = re1['layoutData'][3]<br>                tiqu1 = tiqu['dataList'][0]<br>                kaifa = tiqu1['developer']<br>                # print(kaifa)<br>                with open('华为应用市场.csv', 'a', encoding='utf-8', newline='') as f:<br>                    csv_writer = csv.writer(f)<br>                    csv_writer.writerow([name,baoming,kaifa])<br>                print(name+'保存完成')<br>        time.sleep(2)
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4