Установка hadoop на centos 6
как установить и протестировать hadoop на Linux
1. Установка JAVA
Hadoop разработан на Java, поэтому необходимо установить виртуальную машину для начала работы. Подробнее читайте в руководстве по установке Java на Centos.
2. Создание пользователя Hadoop
# useradd hadoop # passwd hadoop
Changing password for user hadoop. New password: Retype new password: passwd: all authentication tokens updated successfully.
3. Настройка SSH авторизации по ключу
# su - hadoop $ ssh-keygen -t rsa $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys $ chmod 0600 ~/.ssh/authorized_keys $ exit
4. Загрузка дистрибутива Hadoop
# mkdir /opt/hadoop # cd /opt/hadoop/ # wget http://apache.mesi.com.ar/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz # tar -xzf hadoop-1.2.1.tar.gz # mv hadoop-1.2.1 hadoop # chown -R hadoop /opt/hadoop # cd /opt/hadoop/hadoop/
5. Настройка Hadoop на локальной машине
5.1 Редактируем core-site.xml
# vim conf/core-site.xml #Add the following inside the configuration tag <configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000/</value> </property> <property> <name>dfs.permissions</name> <value>false</value> </property> <property> <name>hadoop.http.filter.initializers</name> <value>org.apache.hadoop.security.AuthenticationFilterInitializer</value> </property> <property> <name>hadoop.http.authentication.type</name> <value>simple</value> </property> <property> <name>hadoop.http.authentication.token.validity</name> <value>60</value> </property> <property> <name>hadoop.http.authentication.signature.secret.file</name> <value>/opt/hadoop/hadoop/conf/security/username</value> </property> <property> <name>hadoop.http.authentication.cookie.domain</name> <value></value> </property> <property> <name>hadoop.http.authentication.simple.anonymous.allowed</name> <value>false</value> </property> </configuration>
5.2 Редактируем hdfs-site.xml
# vim conf/hdfs-site.xml # Add the following inside the configuration tag <property> <name>dfs.data.dir</name> <value>/opt/hadoop/hadoop/dfs/name/data</value> <final>true</final> </property> <property> <name>dfs.name.dir</name> <value>/opt/hadoop/hadoop/dfs/name</value> <final>true</final> </property> <property> <name>dfs.replication</name> <value>2</value> </property>
5.3 Редактируем mapred-site.xml
# vim conf/mapred-site.xml # Add the following inside the configuration tag <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property>
5.4 Редактируем hadoop-env.sh
# vim conf/hadoop-env.sh export JAVA_HOME=/opt/jdk1.7.0_17 export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true
Необходимо установить JAVA_HOME в соответствии с вашим расположением виртуальной машины Java.
5.5. Создаем пользователя username
$ mkdir conf/security $ touch conf/security/username
6. Форматирование узла имён (Name-node)
# su - hadoop $ cd /opt/hadoop/hadoop $ bin/hadoop namenode -format
7. Запуск сервисов Hadoop
$ bin/start-all.sh
8. Проверка работоспособности Hadoop
$ $JAVA_HOME/bin/jps
Ссылки для Административного интерфейса hadoop.
Jobtracker:
http://localhost:50030/?user.name=username
Namenode:
http://localhost:50070/?user.name=username
Tasktracker:
http://localhost:50060/?user.name=username
9. Запуск тестовых примеров
Скопировать файлы в распределённую файловую систему:
$ bin/hadoop fs -put conf input
Запустить тестовые примеры:
$ bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+'
Проверить результат:
Скопировать файлы из распределённой файловой системы в локальную:
$ bin/hadoop fs -get output output $ cat output/*
или
Посмотреть файлы из распределённой файловой системы:
$ bin/hadoop fs -cat output/*
10. Остановка Hadoop
Чтобы остановить hadoop необходимо выполнить команду:
$ bin/stop-all.sh