勤学教育网合作机构> > 广州叩丁狼教育欢迎您!

python爬虫网络从入门到实践

广州叩丁狼教育logo
来源:广州叩丁狼教育

2022-04-15|已帮助:1126

进入 >

网络爬虫是 Python 的传统强势领域,最流行的爬虫框架 Scrapy,HTTP 工具包 urlib2,HTML 解析工具 beautifulsoup,XML 解析器 lxml,等等,都是能够独当一面的类库。以下是小编为你整理的python爬虫网络从入门到实践

先定义一个列表

a = [123,'456']

一个是int类型,一个是str类型

添加一个元素,使用append

比如a.append(789)

括号中的就是要添加的元素


python爬虫网络从入门到实践

在指定位置添加元素,使用insert

比如a.insert(1,'ABC')

括号中前面的是指定位置,后面的是要插入添加的元素

注意:位置从0开始,比如当前[123, '456', 789]

123是位置0,'456'是位置1,789是位置3

insert(1.'ABC')的意思是,在位置1插入'ABC',而位置1和之后的都往后挪动一位

先定义一个列表

a = [123, 'ABC', '456', 789, 123]

删除指定对象,使用remove

比如:a.remove(123)

注意:它不会把列表里面的所有123都删,只会删除最前面的与一个

3

如果你删除的指定对象不存在的话,那么会报错

比如:列表没有999这个元素,你非要删除这个元素的话,会报错

如何去下载

百度搜索“Python”,在官网中选择Python2.7,在选择列表项上双击即可下载;(Ps:虽然现在Python已经出到3.6版本,但由于版本差别不会特别大,而且公司项目使用的是旧版本的2.x,所以还是先从2.x开始)

双击下载好的Python2.7,进入安装界面,选择软件的使用用户,默认下一步即可;

设置Python2.7的安装目录,一般都为系统根目录下(C盘),默认即可;

进入程序组件安装界面,拉取下拉框,选择安装组件“Add python.exe to Path”,然后点击“Next”,默认安装即可;

不多时,即可看到安装完成界面

此外,由安装了组件“Add python.exe to Path”也不需再配置Python的环境变量,它已经自动配置好了,查看如图可知;

测试Python2.7是否已经正确安装完成,按下“win”+“R”键,输入“cmd”,点击确定,在弹出的命令行窗口中输入“Python”命令,即可看到电脑中已经安装好的Python;

python的优点

简单,python主张的是极简主义,学python就像在学英语一样。

易学,学习python并不难,入门很快很简单,比c++,java容易多了。


python的优点

开源,python是免费开源产品,你可以自由地发布python这个软件,不用担心盗版和侵权。

自动内存管理,内存溢出一直以来都是很头疼的事情,而python则是自己自动管理内存的。

可以移植 ,python无论在windows和linux上都可以直接运行、。

可扩展,python还可以嵌入其他的语言,比如java和c++等。

但同时python也有自己的缺点,那就是运行的速度比起c++来说速度是慢了10倍的。

爬虫的定义

网络爬虫并不仅仅是打开网页,解析 HTML 这么简单。高效的爬虫要能够支持大量灵活的并发操作,常常要能够同时几千甚至上万个网页同时抓取,传统的线程池方式资源浪费比较大,线程数上千之后系统资源基本上就全浪费在线程调度上了。

Python 由于能够很好的支持协程(Coroutine)操作,基于此发展起来很多并发库,如 Gevent,Eventlet,还有 Celery 之类的分布式任务框架。被认为是比 AMQP 更高效的 ZeroMQ 也是最早就提供了 Python 版本。有了对高并发的支持,网络爬虫才真正可以达到大数据规模。

抓取下来的数据,需要做分词处理,Python 在这方面也不逊色,著名的自然语言处理程序包 NLTK,还有专门做中文分词的 Jieba,都是做分词的利器。

以上是广州叩丁狼教育整理的python爬虫网络从入门到实践全部内容。

热门推荐

更多
勤学培训网 python学习网 python爬虫网络从入门到实践