在大数据的今天,世界上任何一台单机都无法处理大数据,无论cpu的计算能力或者内存的容量。必须采用分布式来实现多台单机的资源整合,来进行任务的处理,包括离线的批处理和在线的实时处理。

 

鉴于上次开会讲了语言模型的发展,从规则到后来的NNLM。本章的目的就是锻炼动手能力,在知道原理的基础上,通过采用MR范式,自己实现一个ngram语言模型。

 

首先通过maven来管理相关包的依赖。

 1 <?xml version="1.0" encoding="UTF-8"?>
 2 <project xmlns="http://maven.apache.org/POM/4.0.0"
 3          xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
 4          xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
 5     <modelVersion>4.0.0</modelVersion>
 6 
 7     <groupId>com.dingheng</groupId>
 8     <artifactId>nragmMR</artifactId>
 9     <version>1.0-SNAPSHOT</version>
10 
11     <packaging>jar</packaging>
12 
13     <dependencies>
14         <dependency>
15             <groupId>org.apache.hadoop</groupId>
16             <artifactId>hadoop-client</artifactId>
17             <version>2.7.2</version>
18         </dependency>
19         <dependency>
20             <groupId>org.apache.hadoop</groupId>
21             <artifactId>hadoop-core</artifactId>
22             <version>1.2.1</version>
23         </dependency>
24         <dependency>
25             <groupId>org.apache.hadoop</groupId>
26             <artifactId>hadoop-common</artifactId>
27             <version>2.7.2</version>
28         </dependency>
29         <dependency>
30             <groupId>mysql</groupId>
31             <artifactId>mysql-connector-java</artifactId>
32             <version>8.0.12</version>
33         </dependency>
34     </dependencies>
35 </project>
View Code

相关文章:

  • 2021-12-22
  • 2021-08-26
  • 2022-01-06
  • 2021-12-06
  • 2022-12-23
  • 2021-04-07
  • 2023-02-23
  • 2022-12-23
猜你喜欢
  • 2021-12-02
  • 2021-10-10
  • 2022-01-16
  • 2021-09-03
  • 2021-06-04
  • 2021-08-07
  • 2021-12-30
相关资源
相似解决方案