python爬虫框架有哪些-python培训

编程都需要爬虫框架，很多人对python的爬虫框架不太了解，所以下面小编给大家介绍python爬虫框架有哪些，一起来看看吧。

python爬虫框架有哪些

python爬虫框架

1、Scrapy：它是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架，可以满足简单的页面爬取，比如可以明确获知urlpattern的情况。

2、Crawley：高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。

3、Portia：是一个开源可视化爬虫工具，可让使用者在不需要任何编程知识的情况下爬取网站!简单地注释自己感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲，它是基于scrapy内核;可视化爬取内容，不需要任何开发专业知识;动态匹配相同模板的内容。

4、newspaper：可以用来提取新闻、文章和内容分析。使用多线程，支持10多种语言等。作者从requests库的简洁与强大得到灵感，使用Python开发的可用于提取文章内容的程序。支持10多种语言并且所有的都是unicode编码。

5、Python-goose：Java写的文章提取工具。Python-goose框架可提取的信息包括：文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。

python爬虫基本知识

一、基础

1)反爬：useragent/cookie/代理ip/js生成/需要登陆/refer/

2)url得到方式：network/search

3)提取方式：正则/xpath/bs4/josn/jsonpath/css

4)验证码处理：手动/打码平台/tesseract识别

5)数据去重：数据库分组去重/set去重/管道去重/url去重

6)加密方式：md5/sha1

7)request和response的区别：

request是服务器对浏览器请求封装，

response是服务器对服务器响应封装。

8)响应码：200正常访问/300重定向/400客户端错误/500服务器错误

9)OCR光学文字识别， tesseract模块

10)redis数据类型：集合/字符串/列表/哈希(hash)/有序集合(zset)

二、screpy框架

pipeline:返回items并存储

middleware:设置反爬机制，设置对应的反反爬对策：IP池，user-agent

settings：配置文件

spider：爬取所需的数据

爬虫爬取数据步骤

1、确定需要爬取的URL地址。

2、由请求模块向URL地址发出请求，并得到网站的响应。

3、从响应内容中提取所需数据。

4、所需数据，保存。

5、页面中有其他需要继续跟进的URL地址，继续第2步去发请求，如此循环。

python爬虫框架有哪些