博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
豌豆荚
阅读量:4493 次
发布时间:2019-06-08

本文共 1414 字,大约阅读时间需要 4 分钟。

'''''' ''' 一、请求url https://www.wandoujia.com/category/6001 二、请求方式 GET 三、请求头
User-Agent:
Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36
Cookie
''' #爬虫三部曲 #1.发送请求 import requests def get_page(url):     reponse = requests.get(url)     #print(reponse.text)     return reponse # 2.解析数据 ''' (.*?)
(.*?) .*?
(.*?)

捕鱼大作战

13.9万人安装
37.31MB
捕鱼大作战,经典街机新体验
休闲益智 ''' import re def parse_index(html): movie_list = re.findall('

.*?.*?(.*?)万人安装 .*?MB',html,re.S) return movie_list # 3.保存数据 def save_data(movie): detail_url, app_name, download_num, app_size = movie data = f''' 游戏名称:{app_name} 详情页url:{detail_url} 下载人数:{download_num}万人 app大小:{app_size}MB \n \n ''' print(data) with open('wandoujia.txt','a',encoding='utf-8') as f: f.write(data) if __name__ == '__main__': #拼接所有主页 url=f'https://www.wandoujia.com/category/6001' #1.往每个主页发送请求 index_res = get_page(url) #2.解析主页获取电影信息 movie_list = parse_index(index_res.text) for movie in movie_list: #3.保存数据 #print(movie_list) save_data(movie)

转载于:https://www.cnblogs.com/yijingjing/p/11129621.html

你可能感兴趣的文章
Linux vmstat命令实战详解
查看>>
FastDFS在centos上的安装配置与使用
查看>>
HDU 1709 The Balance
查看>>
2016/7/7 设置wamp2.5 mysql密码 重点是mysql版本
查看>>
简介几种负载均衡原理
查看>>
micropython logging文档
查看>>
[LeetCode] 23. Merge k Sorted Lists
查看>>
Webform(分页、组合查询)
查看>>
Foundation - NSDate
查看>>
geatpy - 遗传和进化算法相关算子的库函数(python)
查看>>
iOS 线程安全
查看>>
mysql 分组之后统计记录条数
查看>>
New STL Algorithms That Will Make A More Productive Developer
查看>>
js 对象 浅拷贝 和 深拷贝
查看>>
初识 python
查看>>
PCL Examples
查看>>
spring boot
查看>>
浏览器URL传参最大长度问题
查看>>
学习进度条
查看>>
Linux crontab 定时任务详解
查看>>