最近在做ETL的项目,其中肯定要有数据,才能在各个工具之间抽取、转存、加载。按照天亮爬虫项目上的讲解,对网易之家的贷款机构进行了抓取。大致模块分为四部分:抓取模块、实体类、工具类、控制类。现在把相关的代码大致记录一遍,以防遗忘。
首先定义一个定义两个工具类,第一个工具类负责将将后期抓取的数据写入到一个文件里保存:
import java.io.File; import java.io.FileOutputStream; import java.io.IOException; /** *文件读写类 */ public class IOUtil { public static void writeFile(String filePath, String value, String encoding) { FileOutputStream fos = null; try { fos = new FileOutputStream(new File(filePath)); fos.write(value.getBytes(encoding)); fos.close(); } catch (Exception e) { e.printStackTrace(); } finally { if (fos != null) { try { fos.close(); } catch (IOException e) { e.printStackTrace(); } } } } public static void main(String[] args) { String filePath = "test.txt"; String value = "中国人民万岁,hello world,123"; String encoding = "utf-8"; IOUtil.writeFile(filePath, value, encoding); System.out.println("done!"); } }