766培训网
电脑培训
python爬虫框架有哪些

python爬虫框架有哪些

发布时间 :2021-02-03 11:30:35 浏览量:226 收藏
导读:

编程都需要爬虫框架,很多人对python的爬虫框架不太了解,所以下面小编给大家介绍python爬虫框架有哪些,一起来看看吧。

python爬虫框架有哪些

python爬虫框架

1、Scrapy:它是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架,可以满足简单的页面爬取,比如可以明确获知urlpattern的情况。

2、Crawley:高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等。

3、Portia:是一个开源可视化爬虫工具,可让使用者在不需要任何编程知识的情况下爬取网站!简单地注释自己感兴趣的页面,Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲,它是基于scrapy内核;可视化爬取内容,不需要任何开发专业知识;动态匹配相同模板的内容。

4、newspaper:可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言等。作者从requests库的简洁与强大得到灵感,使用Python开发的可用于提取文章内容的程序。支持10多种语言并且所有的都是unicode编码。

5、Python-goose:Java写的文章提取工具。Python-goose框架可提取的信息包括:文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。

python爬虫基本知识

一、基础

1)反爬:useragent/cookie/代理ip/js生成/需要登陆/refer/

2)url得到方式:network/search

3)提取方式:正则/xpath/bs4/josn/jsonpath/css

4)验证码处理:手动/打码平台/tesseract识别

5)数据去重:数据库分组去重/set去重/管道去重/url去重

6)加密方式:md5/sha1

7)request和response的区别:

request是服务器对浏览器请求封装,

response是服务器对服务器响应封装。

8)响应码:200正常访问/300重定向/400客户端错误/500服务器错误

9)OCR光学文字识别, tesseract模块

10)redis数据类型:集合/字符串/列表/哈希(hash)/有序集合(zset)

二、screpy框架

pipeline:返回items并存储

middleware:设置反爬机制,设置对应的反反爬对策:IP池,user-agent

settings:配置文件

spider:爬取所需的数据

爬虫爬取数据步骤

1、确定需要爬取的URL地址。

2、由请求模块向URL地址发出请求,并得到网站的响应。

3、从响应内容中提取所需数据。

4、所需数据,保存。

5、页面中有其他需要继续跟进的URL地址,继续第2步去发请求,如此循环。