最近在练习爬虫,分享一些简单入门的知识美洲

我用的PYCharm3.5.4,安装了requests

session.post(url,data,headers)// 获取对方保存在本地的cookie内容

使用requests模块发送简单的get请求、获取响应

import requests 

# 目标url
url = 'https://www.网页地址.com' 

# 向目标url发送get请求
response = requests.get(url)

# 打印响应内容
print(response.text)

发送get post 请求获取响应;

 

2)response.content.decode("gbk")用指定的编码进行编码

response的常见属性:
  • response.text 响应体 str类型
  • respones.content 响应体 bytes类型
  • response.status_code 响应状态码
  • response.request.headers 响应对应的请求头
  • response.headers 响应头
  • response.request.cookies 响应对应请求的cookie
  • response.cookies 响应的cookie(经过了set-cookie动作)

获取网页源码的常用方法:

  1. response.content.decode()
  2. response.content.decode("GBK")
  3. response.text

以上三种方法从前往后尝试,能够100%的解决所有网页解码的问题

HTTP协议之请求

response.url是resonse响应的url地址

4.保存

session.get(url)  //session会自动带上cookie

1.响应头(set cookie:对方服务通过该字段设置cookie的值到本地)

数据提取的方法:

http:超文本传输协议(以明文的形式进行传输),传输效率高,但不安全。

}

1)response.content.decode()//把响应的二进制字节流转化为str 类型.默认使用的是utf-8编码

***response=request.post(url,headers=headers,data={请求体字典【键值对格式】})

response=request.get(url,headers=headers)

 获取网页源码内容 的方法;(依次使用三种方式一定可以获取网页的正确内容,当前面一种方式不能获取到时,改用下一种

/a//text()   表示获取a标签下的所有文本(可能不是直接在a标签下)

2.//双斜线 能够从任一节点开始选择

xpath语法:

ensure_ascill 能让页面中的中文字符正确显示为中文

3.@的用途

网络爬虫的逻辑

indent: 能够让下一行显示时在下一行的基础上显示空格

3)response.text  浏览器会以自己猜测的编码形式进行编码

json.loads  作用:把json字符串转化为python类型

1.确定起始url

4.获取文本

1)直接放在headers中

本文由美洲杯赌球发布于计算机教程,转载请注明出处:最近在练习爬虫,分享一些简单入门的知识美洲

TAG标签: 美洲杯赌球
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。