推广 热搜: 快速  企业  未来  公司  中国  上海  政策    行业  教师 

Python爬虫(一)抓取指定的页面

   日期:2024-11-01     作者:caijiyuan    caijiyuan   评论:0    移动:http://ch168.cxdr.cn/news/1.html
核心提示:(以下是在windows环境下的操作,python版本为3)官方文档上的解释是:urllib is a package that collects several modules for wo

(以下是在windows环境下的操作,python版本为3)

Python爬虫(一)抓取指定的页面

官方文档上的解释是:

urllib is a package that collects several modules for working with URLs

简单的说就是用来处理url的,它包含以下几个模块:

  • urllib.request
  • urllib.request,打开并且读取url
  • urllib.error,包含了一些urllib.request引起的异常
  • urllib.parse,解析url
  • urllib.robotparser,解析robots.txt文件
  • The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest authentication, redirections, cookies and more.

    这里,只需用到urllib.request模块,request模块包含了一些函数,用来处理打开的url。

    urlopen()

    urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

    该函数主要的参数就是url,可以是一个字符串也可以是一个request对象。
    函数返回一个可以作为文本管理器的对象,有如下方法:

  • geturl(),返回检索到的url资源,通常用于确定是否允许重定向
  • info(),返回页面的元信息,例如headers
  • getcode(),返回响应的http状态码
  • 为了清楚这些函数的作用是什么,我们运行如下python代码:

    运行结果:

    首先我们需要知道百度搜索的url,打开百度随便搜索一个词,就能在地址栏看到url

    得到url之后,剩下的就是对url进行爬取了,代码如下:

    urllib.parse.urlencode()可以将字符串转换为url格式的字符串,这里data进行转换后,我们可以得到的字符串。
    要是只想对一个字符串进行urlencode转换,可以使用urllib.parse.quote(),例如:

    上面代码的输出结果其实就是爬取的百度页面搜索结果的源代码,之后要做的事,就是对爬取到的东西进行处理,来获取我们想要的数据

    本文地址:http://motor168.cxdr.cn/news/1.html    珂云塔 http://motor168.cxdr.cn/ , 查看更多
     
    标签: 页面 爬虫
     
    更多>同类行业资讯
    0相关评论

    新闻列表
    企业新闻
    推荐企业新闻
    推荐图文
    推荐行业资讯
    点击排行
    网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号