python爬虫框架

来源：深圳IT编程培训

2022-04-15|已帮助：807 人

进入 >

所谓的爬虫就是通过本地远程访问url，然后将url的读成源代码形式，然后对源代码进行解析，获取自己需要的数据，相当于简单数据挖掘。下面是小编为您整理的关于python爬虫框架，希望对你有所帮助。

python爬虫框架配图

常见python爬虫框架

(1)Scrapy:很强大的爬虫框架，可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。

(2)Crawley: 高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等

(3)Portia:可视化爬取网页内容

(4)newspaper:提取新闻、文章以及内容分析

(5)python-goose:java写的文章提取工具

(6)Beautiful Soup:名气大，整合了一些常用爬虫需求。缺点：不能加载JS。

(7)mechanize:优点：可以加载JS。缺点：文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。

(8)selenium:这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。

(9)cola:一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高。

Python几种主流框架比较

从GitHub中整理出的15个最受欢迎的Python开源框架。这些框架包括事件I/O，OLAP，Web开发，高性能网络通信，测试，爬虫等。

Django: Python Web应用开发框架

Django 应该是最出名的Python框架，GAE甚至Erlang都有框架受它影响。Django是走大而全的方向，它最出名的是其全自动化的管理后台：只需要使用起ORM，做简单的对象定义，它就能自动生成数据库结构、以及全功能的管理后台。

Diesel：基于Greenlet的事件I/O框架

Diesel提供一个整洁的API来编写网络客户端和服务器。支持TCP和UDP。

Flask：一个用Python编写的轻量级Web应用框架

Flask是一个使用Python编写的轻量级Web应用框架。基于Werkzeug WSGI工具箱和Jinja2

模板引擎。Flask也被称为“microframework”，因为它使用简单的核心，用extension增加其他功能。Flask没有默认使用的数据库、窗体验证工具。

Cubes：轻量级Python OLAP框架

Cubes是一个轻量级Python框架，包含OLAP、多维数据分析和浏览聚合数据(aggregated data)等工具。

Kartograph.py：创造矢量地图的轻量级Python框架

Kartograph是一个Python库，用来为ESRI生成SVG地图。Kartograph.py目前仍处于beta阶段，你可以在virtualenv环境下来测试。

python爬虫可以用来干什么

Python非常适合用来开发网页爬虫，理由如下：

1、抓取网页本身的接口

相比与其他静态编程语言，如java，c#，c++，python抓取网页文档的接口更简洁;相比其他动态脚本语言，如perl，shell，python的urllib2包提供了较为完整的访问网页文档的API。(当然ruby也是很好的选择)

此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize

python爬虫框架配图

2、网页抓取后的处理

抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。

其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。

python轻量级爬虫的编写

今天来分享一下如何使用python编写一个简单的网络爬虫。说到爬虫，这简直就是广大懒惰的程序员和宅男们的福音啊，一次编写，想要啥资源就能爬啥资源，高至各种学习资源，论文资料，低至各种图片小视频(...)等等...嗯...这里讲解了如何搭建一个简单爬虫的框架之后，会基于该框架编写一个栗子，该栗子代码会从python的百科页面开始，爬取各种百科页面信息并记录下来。

注意，这里的标题是《*轻量级爬虫*》，之所以说是轻量级，是因为这里只涉及到静态网页的解析，至于AJAX异步加载，JS脚本什么的并不涉及。

先来代码链接~~~

python爬虫内存版

python爬虫MySQL版

噢，对了，这个爬虫有两个版本，一个是MySQL版，一个是内存板。有啥区别呢，就是前者是使用MySQL数据库存储已经访问过的URL的，后者则使用内存。前者的好处是，多次运行相互独立，不会重复爬取相同的URL，而后者不一样，每一次运行都会从相同的URL出发，重复爬取相同的URL，那是因为前者是持久化存储，而后者不是。一旦后者的程序关掉，所有已经被访问过的URL记录就会清空。但是，前者也有一个缺点，那就是运行速度比较慢...具体怎么样，大家把代码下载下来跑一下就清楚了。下面讲述的是内存存储版的~~~

1. python爬虫框架

在编写代码之前，我们应该先确定一个良好的代码框架，这也是一个优秀的程序员应有的习惯(咳咳...我还不算一个优秀的程序员...以后会是的...)。这里，我将会讲述一个简单爬虫的框架。

一个最基本的爬虫应该由一下4部分组成：URL调度器，网页下载器，网页解析器，爬取信息输出器。

以上是深圳IT编程培训整理的python爬虫框架全部内容。

网络爬虫的目的 python爬虫框架有哪些

推荐课程
同类文章

python爬虫框架

推荐课程

同类文章

热门推荐