推广 热搜： 行业机械设备杯经纪教师系统参数金蒸汽

spider语言 spider软件使用指南

日期：2024-12-20 移动：http://fhzcwj.xhstdz.com/mobile/quote/85160.html

Spider是爬虫框架的核心，爬取流程如下：

先初始化请求URL列表，并指定下载后处理response的回调函数。初次请求URL通过指定，调用产生对象，然后注册方法作为回调
在parse回调中解析response并返回字典,对象,对象或它们的迭代对象。对象还会包含回调函数，之后Scrapy下载完后会被这里注册的回调函数处理。
在回调函数里面，你通过使用选择器（同样可以使用BeautifulSoup,lxml或其他工具）解析页面内容，并生成解析后的结果Item。
最后返回的这些Item通常会被持久化到数据库中(使用Item Pipeline)或者使用Feed exports将其保存到文件中。

尽管这个流程适合于所有的蜘蛛，但是Scrapy里面为不同的使用目的实现了一些常见的Spider。下面我们把它们列出来。

链接爬取蜘蛛，专门为那些爬取有特定规律的链接内容而准备的。如果你觉得它还不足以适合你的需求，可以先继承它然后覆盖相应的方法，或者自定义Spider也行。

它除了从类继承的属性外，还有一个新的属性,它是一个对象列表，每个对象定义了某个规则，如果多个匹配一个连接，那么使用第一个，根据定义的顺序。

一个详细的例子：

XML订阅蜘蛛，用来爬取XML形式的订阅内容，通过某个指定的节点来遍历。可使用, , 和三种形式的迭代器，不过当内容比较多的时候推荐使用，默认也是它，可以节省内存提升性能，不需要将整个DOM加载到内存中再解析。而使用可以处理XML有格式错误的内容。处理XML的时候最好先Removing namespaces

接下来我通过爬取我的博客订阅XML来展示它的使用方法。

这个跟上面的XMLFeedSpider很类似，区别在于它会一行一行的迭代，而不是一个节点一个节点的迭代。每次迭代行的时候会调用方法。

站点地图蜘蛛，允许你使用Sitemaps发现URL后爬取整个站点。还支持嵌套的站点地图以及从中发现站点URL

本文地址：http://fhzcwj.xhstdz.com/quote/85160.html 物流园资讯网 http://fhzcwj.xhstdz.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

0 条相关评论

相关最新动态

推荐最新动态

点击排行