博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
豌豆荚
阅读量:4493 次
发布时间:2019-06-08

本文共 1414 字,大约阅读时间需要 4 分钟。

'''''' ''' 一、请求url https://www.wandoujia.com/category/6001 二、请求方式 GET 三、请求头
User-Agent:
Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36
Cookie
''' #爬虫三部曲 #1.发送请求 import requests def get_page(url):     reponse = requests.get(url)     #print(reponse.text)     return reponse # 2.解析数据 ''' (.*?)
(.*?) .*?
(.*?)

捕鱼大作战

13.9万人安装
37.31MB
捕鱼大作战,经典街机新体验
休闲益智 ''' import re def parse_index(html): movie_list = re.findall('

.*?.*?(.*?)万人安装 .*?MB',html,re.S) return movie_list # 3.保存数据 def save_data(movie): detail_url, app_name, download_num, app_size = movie data = f''' 游戏名称:{app_name} 详情页url:{detail_url} 下载人数:{download_num}万人 app大小:{app_size}MB \n \n ''' print(data) with open('wandoujia.txt','a',encoding='utf-8') as f: f.write(data) if __name__ == '__main__': #拼接所有主页 url=f'https://www.wandoujia.com/category/6001' #1.往每个主页发送请求 index_res = get_page(url) #2.解析主页获取电影信息 movie_list = parse_index(index_res.text) for movie in movie_list: #3.保存数据 #print(movie_list) save_data(movie)

转载于:https://www.cnblogs.com/yijingjing/p/11129621.html

你可能感兴趣的文章
个人随笔之《寻找真实的自己》
查看>>
判断是否是素数(质数)
查看>>
嵌入式第10次实验报告
查看>>
Android Fragment 详解
查看>>
alert确定后刷新页面
查看>>
LINQ基础(三)
查看>>
mysql练习
查看>>
STL的第二级配置器
查看>>
(诊断)No module named MySQLdb
查看>>
Emacs 安装配置使用教程
查看>>
VS2017常用快快捷键
查看>>
docker问题
查看>>
kubelet disk 压力
查看>>
velocity.js的使用
查看>>
UIImagePickerController的使用方法
查看>>
[2017 - 2018 ACL] 对话系统论文研究点整理
查看>>
渲染流程替换
查看>>
array_multisort 函数的使用
查看>>
Myslq 之创建数据库
查看>>
C++关于日期代码
查看>>