Node.js 爬虫，自动化抓取文章标题和正文

持续进行中。。。

目标：

动态User-Agent模拟浏览器 √
支持Proxy设置，避免被服务器端拒绝 √
支持多核模式，发挥多核CPU性能 √
支持核内并发模式 √
自动解码非英文站点，避免乱码出现 √
自动队列管理，持续化PUSH √
自动抓取文章标题和正文 √
性能优化
测试用例，自动化测试

我的测试环境：

9 台安装 ElasticSearch 1.3.2 的 centos，48G内存，8核
3 台 Node.js v0.11.14 的 centos，16G内存，8核，用作爬虫
3 台 NSQD 服务器，用作爬虫解耦后的数据订阅和发送，与爬虫共用，其中 1 台部署 NSQ Lookupd
国内主要门户的站点管理，使用Kue，链接，正文之间的传递采用NSQ

结果：

日均数据 50W 左右

开源地址：https://github.com/Tjatse/spider2

相关文章：

2022-02-04
2021-06-19
2021-05-22
2021-08-20
2021-06-16
2021-10-08
2022-12-23

猜你喜欢

2021-10-05
2021-12-28
2021-08-20
2022-12-23
2021-07-25
2021-08-05
2022-12-23

相关资源

下载 2023-01-28
下载 2021-06-30
下载 2023-01-28

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode