推广 热搜： 快速企业未来公司中国上海政策金行业教师

Python爬虫（一）抓取指定的页面

日期：2024-11-01 作者：caijiyuan caijiyuan 评论：0 移动：http://ch168.cxdr.cn/news/1.html

核心提示：(以下是在windows环境下的操作，python版本为3)官方文档上的解释是：urllib is a package that collects several modules for wo

(以下是在windows环境下的操作，python版本为3)

Python爬虫（一）抓取指定的页面

官方文档上的解释是：

urllib is a package that collects several modules for working with URLs

简单的说就是用来处理url的，它包含以下几个模块：

urllib.request

urllib.request，打开并且读取url

urllib.error，包含了一些urllib.request引起的异常

urllib.parse，解析url

urllib.robotparser，解析robots.txt文件

The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest authentication, redirections, cookies and more.

这里，只需用到urllib.request模块，request模块包含了一些函数，用来处理打开的url。

urlopen()

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

该函数主要的参数就是url，可以是一个字符串也可以是一个request对象。
函数返回一个可以作为文本管理器的对象，有如下方法：

geturl()，返回检索到的url资源，通常用于确定是否允许重定向

info()，返回页面的元信息，例如headers

getcode()，返回响应的http状态码

为了清楚这些函数的作用是什么，我们运行如下python代码：

运行结果：

首先我们需要知道百度搜索的url，打开百度随便搜索一个词，就能在地址栏看到url

得到url之后，剩下的就是对url进行爬取了，代码如下：

urllib.parse.urlencode()可以将字符串转换为url格式的字符串，这里data进行转换后，我们可以得到的字符串。
要是只想对一个字符串进行urlencode转换，可以使用urllib.parse.quote()，例如：

上面代码的输出结果其实就是爬取的百度页面搜索结果的源代码，之后要做的事，就是对爬取到的东西进行处理，来获取我们想要的数据

本文地址：http://motor168.cxdr.cn/news/1.html 珂云塔 http://motor168.cxdr.cn/ , 查看更多

标签： 页面爬虫

更多>同类行业资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

推荐图文

推荐行业资讯

点击排行