10个python爬虫入门实例
创始人
2025-05-31 19:26:44
0

涉及主要知识点:

web是如何交互的
requests库的get、post函数的应用
response对象的相关函数,属性
python文件的打开,保存
代码中给出了注释,并且可以直接运行哦

如何安装requests库(安装好python的朋友可以直接参考,没有的,建议先装一哈python环境)

windows用户,Linux用户几乎一样:

打开cmd输入以下命令即可,如果python的环境在C盘的目录,会提示权限不够,只需以管理员方式运行cmd窗口

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

Linux用户类似(ubantu为例): 权限不够的话在命令前加入sudo即可

sudo pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

1.爬取强大的BD页面,打印页面信息

# 第一个爬虫示例,爬取百度页面import requests #导入爬虫的库,不然调用不了爬虫的函数response = requests.get("http://www.baidu.com") #生成一个response对象response.encoding = response.apparent_encoding #设置编码格式print("状态码:"+ str( response.status_code ) ) #打印状态码print(response.text)#输出爬取的信息

2.常用方法之get方法实例,下面还有传参实例

# 第二个get方法实例import requests #先导入爬虫的库,不然调用不了爬虫的函数response = requests.get("http://httpbin.org/get") #get方法print( response.status_code ) #状态码print( response.text )
  1. 常用方法之post方法实例,下面还有传参实例
# 第三个 post方法实例import requests #先导入爬虫的库,不然调用不了爬虫的函数response = requests.post("http://httpbin.org/post") #post方法访问print( response.status_code ) #状态码print( response.text )
  1. put方法实例
# 第四个 put方法实例import requests #先导入爬虫的库,不然调用不了爬虫的函数response = requests.put("http://httpbin.org/put") # put方法访问print( response.status_code ) #状态码print( response.text )

5.常用方法之get方法传参实例(1)

如果需要传多个参数只需要用&符号连接即可如下

# 第五个 get传参方法实例import requests #先导入爬虫的库,不然调用不了爬虫的函数response = requests.get("http://httpbin.org/get?name=hezhi&age=20") # get传参print( response.status_code ) #状态码print( response.text )

6.常用方法之get方法传参实例(2)

params用字典可以传多个

# 第六个 get传参方法实例import requests #先导入爬虫的库,不然调用不了爬虫的函数data = {"name":"hezhi","age":20
}
response = requests.get( "http://httpbin.org/get" , params=data ) # get传参print( response.status_code ) #状态码print( response.text )

7.常用方法之post方法传参实例(2) 和上一个有没有很像7.常用方法之post方法传参实例(2) 和上一个有没有很像

# 第七个 post传参方法实例import requests #先导入爬虫的库,不然调用不了爬虫的函数data = {"name":"hezhi","age":20
}
response = requests.post( "http://httpbin.org/post" , params=data ) # post传参print( response.status_code ) #状态码print( response.text )

8.关于绕过反爬机制,以zh爸爸为例

# 第好几个方法实例import requests #先导入爬虫的库,不然调用不了爬虫的函数response = requests.get( "http://www.zhihu.com") #第一次访问知乎,不设置头部信息print( "第一次,不设头部信息,状态码:"+response.status_code )# 没写headers,不能正常爬取,状态码不是 200#下面是可以正常爬取的区别,更改了User-Agent字段headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"}#设置头部信息,伪装浏览器response = requests.get( "http://www.zhihu.com" , headers=headers ) #get方法访问,传入headers参数,print( response.status_code ) # 200!访问成功的状态码print( response.text )

9.爬取信息并保存到本地,因为目录关系,在D盘建立了一个叫做爬虫的文件夹,然后保存信息

注意文件保存时的encoding设置

# 爬取一个html并保存import requestsurl = "http://www.baidu.com"response = requests.get( url )response.encoding = "utf-8" #设置接收编码格式print("\nr的类型" + str( type(response) ) )print("\n状态码是:" + str( response.status_code ) )print("\n头部信息:" + str( response.headers ) )print( "\n响应内容:" )print( response.text )#保存文件
file = open("D:\\爬虫\\baidu.html","w",encoding="utf") #打开一个文件,w是文件不存在则新建一个文件,这里不用wb是因为不用保存成二进制file.write( response.text )file.close()

10.爬取图片,保存到本地

#保存百度图片到本地import requests #先导入爬虫的库,不然调用不了爬虫的函数response = requests.get("https://www.baidu.com/img/baidu_jgylogo3.gif") #get方法的到图片响应file = open("D:\\爬虫\\baidu_logo.gif","wb") #打开一个文件,wb表示以二进制格式打开一个文件只用于写入file.write(response.content) #写入文件file.close()#关闭操作,运行完毕后去你的目录看一眼有没有保存成功```

相关内容

热门资讯

最新《终结拖延症》读后感 终结... 最新《终结拖延症》读后感【篇一】  之前一次参加果壳的赠书写书评的活动又一次赤裸裸的见证了我的拖延症...
《永生的眼睛》读后感【最新】 ... 永生的眼睛读后感【篇一】  今天,我读了《永生的眼睛》,心里深受感动。  课文主要讲了作者一家三代已...
最新或2023(历届)《野性的... 野性的呼唤读后感【篇一】  野性的呼唤是一本很好的书,不像童话那样可爱生动活泼,有时候甚至是让人感到...
有关《金色的脚印》读后感 金色... 有关金色的脚印读后感【篇一】  读了《金色的脚印》这篇文章,我才明白了狐狸并不是没有良心的,它们也有...
有关《森林报》读后感集锦 森林... 森林报读后感【篇一】  最近我看了《森林报》,我觉得它很好看,森林报是一份特殊的报纸,它与其它报纸全...
儒商是中国梦的推动者读后感 儒... 儒商是中国梦的推动者读后感一:  5月9日在学习了《儒商是中国梦的推动者》一文之后,感慨颇多:  所...
反腐小说《人民的名义》读后感 ... 反腐小说《人民的名义》读后感【篇一】  在官场文学的作品里,论文学性,周梅森的作品不如阎真的《沧浪之...
关于《美丽广州我的中国梦》读后... 《美丽广州我的中国梦》读后感【篇一】  广州市爱国主义教育基地层次多样、内容丰富、分布广泛、影响力强...
最新或2023(历届)《狼王梦... 最新或2023(历届)狼王梦读后感600字【篇一】  《狼王梦》是“动物小说大王”沈石溪写的一部关于...
老舍写的母鸡读后感精选 老舍的... 老舍写的母鸡读后感【篇一】  今天我们学习了《母鸡》这篇课文,母鸡对她的小雏鸡关心,呵护让我很感动。...
读《米开朗琪罗传》有感 3篇 ... 读米开朗琪罗传有感【篇一】  名人传中,介绍了三位伟人,分别是贝多芬、米开朗琪罗和托尔斯泰,米开朗琪...
关于革命先烈的英雄事迹读后感 ... 关于革命先烈的英雄事迹读后感【篇一】  如果问是谁开创了中国历史的先河,我会回答:革命先烈们。他们用...
《普法教育读本》读后感精选 普... 《普法教育读本》读后感【篇一】  我们从小就接受法制教育, 享受法律给予的权利.但是在事实上到底有多...
最新《青少年普法教育读本》读后... 《青少年普法教育读本》读后感【篇一】  《全国青少年普法教育读本》,这本书,始终让我记忆犹新。因为,...
读《百年追梦全面小康》有感 读... 读《百年追梦全面小康》有感一:  根据我国经济社会发展实际,党的十六大、十七大都确立了全面建设小康社...
《莫莉的假期》读后感1000字... 书是知识的海洋,书是进步的阶梯。在茫茫书海中,《莫莉的假期》这本书深深地吸引我。因为这是以“少女成长...
最新或2023(历届)《笑猫日...  第一篇:《笑猫日记——幸福的鸭子》读后感  幸福感来自于给予他人和感悟人生。在给予和感悟的同时,自...
《装在套子里的人》读后感800... 示例范文一:  生活中,有太多的人把自己装在“自制”的套子里,远离流言,远离浊世,避开一切对自己不利...
《巧克力味的暑假》读后感 巧克...  前一段时间,心情不太好,压力很大,老师就推荐我看一本书,说这本书很值得一看。我怀着既好奇又试着看的...
世界环境日活动方案,世界环境日... 一、活动前准备工作:  植树节,1979年2月,中国五届人大常委会第六次会议决定,将每年的3月12 ...