博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬虫-什么是爬虫?
阅读量:4947 次
发布时间:2019-06-11

本文共 907 字,大约阅读时间需要 3 分钟。

百度百科是这样定义爬虫的:

(又被称为网页,网络机器人,在社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取信息的程序或者脚本。另外一些不常使用的名字还有、自动索引、模拟程序或者。

通俗的解释:

  打开一个网页,里面有网页内容吧,想象一下,有个工具,可以把网页上的内容获取下来,存到你想要的地方,这个工具就是我们今天的主角:爬虫。

  打开浏览器(强烈建议谷歌浏览器),找到浏览器地址栏,然后在里敲网址https://music.163.com/,你会看到网页内容。

  鼠标在页面上点击右键,然后点击查看网页源代码(view page source)。看到这些文字了吗?这才是网页本来的样子。

  其实,所有的网页都是HTML+CSS+JavaScript代码,只不过浏览器将这些代码解析成了上面的网页,我们的小爬虫抓取的其实就是这些代码中的文本啦。

  这不合理啊,难不成那些图片也是文本?

  恭喜你,答对了。回到浏览器中有图的哪个tab页,鼠标右键,点击Inspect。会弹出一个面板,点击板左上角的箭头,点击虐狗图片,你会看到下面有红圈圈的地方,是图片的网络地址。图片可以通过该地址保存到本地哦。

 

  没错,我们的小爬虫抓取的正是网页中的数据,但是前提是你要知道你想要抓取什么数据,你的目标网站是什么,才可以把想法变成现实的哦。

 

  说了这么多,学习Python爬虫还是需要一定的基础知识呢?

    • HTML

      这个能够帮助你了解网页的结构,内容等。可以参考或者

    • Python

      如果有编程基础的小伙伴儿,推荐看一个就够了
      没有编程基础的小伙伴,推荐看看视频教程(网易云课堂搜Python),然后再结合廖雪峰的教程,双管齐下。
      其实知乎上总结的已经非常好了,我就不多唠叨了。

    • TCP/IP协议,HTTP协议

      这些知识能够让你了解在网络请求和网络传输上的基本原理,了解就行,能够帮助今后写爬虫的时候理解爬虫的逻辑。
      廖雪峰Python教程里也有简单介绍,可以参考:,

 

   注(参考):

转载于:https://www.cnblogs.com/MakeView660/p/9577175.html

你可能感兴趣的文章
Android底部导航栏——FrameLayout + RadioGroup
查看>>
NOI2016 优秀的拆分 后缀数组
查看>>
Java消息服务
查看>>
Jtester使用
查看>>
详解CSS样式的position属性
查看>>
Python机器学习(5)——朴素贝叶斯分类器
查看>>
Mac 10.12连接iSCSI硬盘软件iSCSI Initiator X
查看>>
ffmpeg获取文件的总时长(mp3/mp4/flv等)
查看>>
Python virtualenvwrapper在Win下的安装和管理
查看>>
费马小定理
查看>>
mysql5.6 忘记root密码
查看>>
HTML 小练习(智联注册页)
查看>>
MSSQL优化之————探索MSSQL执行计划(转)
查看>>
使用DOS命令查找包含某一字符串的所有文件
查看>>
python强大的区间处理库interval用法介绍
查看>>
MVC开发中的常见错误-04-“System.NullReferenceException”类型的异常在 BBFJ.OA.WebApp.dll 中发生,但未在用户代码中进行处理...
查看>>
VS-常用的快捷键-总结
查看>>
如何在网页中用echarts图表插件做出静态呈现效果
查看>>
在Linux系统下挂载Windows上的共享文件夹
查看>>
【转】sizeof详解
查看>>