zouhong

java网络爬虫入门

copy自:http://www.ayulong.cn/types/2     视频教程:https://www.bilibili.com/video/BV1cE411u7RA?p=1

1. 网络爬虫简介

网络爬虫也叫网络机器人, 是一种可以按照一定规则自动采集互联网信息的程序或脚本, 爬虫一般分为数据采集, 处理, 储存三个部分, 从若干初始网页的URL开始抓取网页, 不断获取页面上的URL放入队列直到满足系统的一定条件停止

为什么要学习网络爬虫

1. 可以实现私人的搜索引擎
2. 大数据时代获取数据源, 作数据分析
3. 可以更好地进行搜索引擎优化 (SEO)
4. 有利于就业, 爬虫工程师需求量大, 发展空间广

2. hello world

环境准备

JDK1.8

IntelliJ IDEA

DEA自带的Maven

导入 pom.xml

<dependencies>
        <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient -->
        <!-- HttpClient -->
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
            <version>4.5.12</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.slf4j/slf4j-log4j12 -->
        <!--日志-->
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-log4j12</artifactId>
            <version>1.7.25</version>
            <scope>test</scope>
        </dependency>

    </dependencies>

创建 slf4j 日志配置文件

在 resources 目录下创建 log4j.properties 文件, 并添加以下配置

# A1 在控制台显示日志
log4j.rootLogger=DEBUG,A1
log4j.logger.cn.itcast = DEBUG

log4j.appender.A1=org.apache.log4j.ConsoleAppender
log4j.appender.A1.layout=org.apache.log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern=%-d{yyyy-MM-dd HH

分类:

技术点:

相关文章: