oneoffcoder
diff --git a/‎spark-cluster/base/Dockerfile
Lines changed: 65 additions & 0 deletions b/‎spark-cluster/base/Dockerfile
Lines changed: 65 additions & 0 deletions
diff --git a/‎spark-cluster/base/Makefile
Lines changed: 12 additions & 0 deletions b/‎spark-cluster/base/Makefile
Lines changed: 12 additions & 0 deletions
diff --git a/‎spark-cluster/base/ubuntu/root/.ssh/config
Lines changed: 3 additions & 0 deletions b/‎spark-cluster/base/ubuntu/root/.ssh/config
Lines changed: 3 additions & 0 deletions
diff --git a/‎spark-cluster/base/ubuntu/root/environment.yml
Lines changed: 8 additions & 0 deletions b/‎spark-cluster/base/ubuntu/root/environment.yml
Lines changed: 8 additions & 0 deletions
diff --git a/‎spark-cluster/master/ubuntu/etc/supervisor/conf.d/all.conf
Lines changed: 5 additions & 0 deletions b/‎spark-cluster/master/ubuntu/etc/supervisor/conf.d/all.conf
Lines changed: 5 additions & 0 deletions
diff --git a/‎spark-cluster/master/ubuntu/etc/supervisor/supervisor.conf
Lines changed: 31 additions & 0 deletions b/‎spark-cluster/master/ubuntu/etc/supervisor/supervisor.conf
Lines changed: 31 additions & 0 deletions
diff --git a/‎spark-cluster/master/ubuntu/usr/local/bin/start-all.sh
Lines changed: 35 additions & 0 deletions b/‎spark-cluster/master/ubuntu/usr/local/bin/start-all.sh
Lines changed: 35 additions & 0 deletions
@@ -0,0 +1,65 @@
+FROM ubuntu:latest
+
+ENV JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
+ENV HDFS_NAMENODE_USER=root
+ENV HDFS_DATANODE_USER=root
+ENV HDFS_SECONDARYNAMENODE_USER=root
+ENV YARN_RESOURCEMANAGER_USER=root
+ENV YARN_NODEMANAGER_USER=root
+ENV YARN_PROXYSERVER_USER=root
+ENV HADOOP_HOME=/usr/local/hadoop
+ENV HADOOP_YARN_HOME=${HADOOP_HOME}
+ENV HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
+ENV HADOOP_LOG_DIR=${HADOOP_YARN_HOME}/logs
+ENV HADOOP_IDENT_STRING=root
+ENV HADOOP_MAPRED_IDENT_STRING=root
+ENV HADOOP_MAPRED_HOME=${HADOOP_HOME}
+ENV SPARK_HOME=/usr/local/spark
+ENV CONDA_HOME=/usr/local/conda
+ENV PYSPARK_MASTER=yarn
+ENV PATH=${CONDA_HOME}/bin:${SPARK_HOME}/bin:${HADOOP_HOME}/bin:${PATH}
+
+# setup ubuntu
+RUN apt-get update -y \
+    && apt-get upgrade -y \
+    && apt-get -y install openjdk-17-jdk wget ssh openssh-server sshpass supervisor \
+    && apt-get -y install nano net-tools lynx \
+    && apt-get clean
+
+# setup ssh
+RUN ssh-keygen -t rsa -P "" -f /root/.ssh/id_rsa \
+    && cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys \
+    && chmod 0600 /root/.ssh/authorized_keys
+COPY ubuntu/root/.ssh/config /root/.ssh/config
+
+# setup hadoop
+RUN wget -q https://dlcdn.apache.org/hadoop/common/hadoop-3.4.1/hadoop-3.4.1.tar.gz -O /tmp/hadoop.tar.gz \
+    && tar -xzf /tmp/hadoop.tar.gz -C /usr/local/ \
+    && ln -s /usr/local/hadoop-3.4.1 /usr/local/hadoop \
+    && rm -fr /usr/local/hadoop/etc/hadoop/* \
+    && mkdir /usr/local/hadoop/extras \
+    && mkdir /var/hadoop \
+	&& mkdir /var/hadoop/hadoop-datanode \
+	&& mkdir /var/hadoop/hadoop-namenode \
+	&& mkdir /var/hadoop/mr-history \
+	&& mkdir /var/hadoop/mr-history/done \
+	&& mkdir /var/hadoop/mr-history/tmp
+
+# setup spark
+RUN wget -q https://dlcdn.apache.org/spark/spark-3.5.5/spark-3.5.5-bin-hadoop3.tgz -O /tmp/spark.tgz \
+    && tar -xzf /tmp/spark.tgz -C /usr/local/ \
+    && ln -s /usr/local/spark-3.5.5-bin-hadoop3 /usr/local/spark \
+    && rm /usr/local/spark/conf/*.template
+
+# setup conda
+COPY ubuntu/root/environment.yml /tmp/environment.yml
+RUN wget -q https://repo.anaconda.com/archive/Anaconda3-2024.10-1-Linux-x86_64.sh -O /tmp/anaconda.sh \
+    && /bin/bash /tmp/anaconda.sh -b -p $CONDA_HOME \
+    && $CONDA_HOME/bin/conda env update -n base --file /tmp/environment.yml \
+    && $CONDA_HOME/bin/conda update -n root conda -y \
+    && $CONDA_HOME/bin/conda update --all -y \
+    && $CONDA_HOME/bin/pip install --upgrade pip
+
+# clean up
+RUN rm -rf /var/lib/apt/lists/* /tmp/* /var/tmp/* \
+    && mkdir /tmp/spark-events
@@ -0,0 +1,12 @@
+# Name of the Docker image
+IMAGE_NAME=spark-base
+PLATFORM=linux/amd64
+
+build:
+	docker build --platform=$(PLATFORM) -t $(IMAGE_NAME) .
+
+interactive:
+	docker run -it --rm --platform=$(PLATFORM) $(IMAGE_NAME)
+
+purge: clean
+	docker rmi $(IMAGE_NAME) || true
@@ -0,0 +1,3 @@
+Host *
+StrictHostKeyChecking no
+UserKnownHostsFile=/dev/null
@@ -0,0 +1,8 @@
+name: base
+channels:
+  - default
+  - anaconda
+  - crogoz
+dependencies:
+  - graphframes
+  - networkx
@@ -0,0 +1,5 @@
+[program:all]
+command=/bin/bash /usr/local/bin/start-all.sh
+exitcodes=0
+startsecs=0
+priority=999
@@ -0,0 +1,31 @@
+; supervisor config file
+
+[unix_http_server]
+file=/var/run/supervisor.sock   ; (the path to the socket file)
+chmod=0700                       ; sockef file mode (default 0700)
+
+[supervisord]
+logfile=/var/log/supervisor/supervisord.log ; (main log file;default $CWD/supervisord.log)
+pidfile=/var/run/supervisord.pid ; (supervisord pidfile;default supervisord.pid)
+childlogdir=/var/log/supervisor            ; ('AUTO' child log dir, default $TEMP)
+loglevel=debug
+nodaemon=true
+user=root
+
+; the below section must remain in the config file for RPC
+; (supervisorctl/web interface) to work, additional interfaces may be
+; added by defining them in separate rpcinterface: sections
+[rpcinterface:supervisor]
+supervisor.rpcinterface_factory = supervisor.rpcinterface:make_main_rpcinterface
+
+[supervisorctl]
+serverurl=unix:///var/run/supervisor.sock ; use a unix:// URL  for a unix socket
+
+; The [include] section can just contain the "files" setting.  This
+; setting can list multiple files (separated by whitespace or
+; newlines).  It can also contain wildcards.  The filenames are
+; interpreted as relative to this file.  Included files *cannot*
+; include files themselves.
+
+[include]
+files = /etc/supervisor/conf.d/*.conf
@@ -0,0 +1,35 @@
+#!/bin/bash
+
+service ssh start
+echo "started ssh"
+
+$HADOOP_HOME/sbin/start-all.sh
+echo "started hadoop"
+
+$SPARK_HOME/sbin/start-all.sh
+echo "started spark"
+
+$SPARK_HOME/sbin/start-history-server.sh
+echo "started spark history"
+
+# pyspark --master spark://localhost:7077 > /tmp/jupyter.log 2>&1 &
+# options: https://gerardnico.com/db/spark/pyspark/pyspark
+$SPARK_HOME/bin/pyspark \
+    --packages graphframes:graphframes:0.8.1-spark2.4-s_2.11 \
+    --repositories https://repos.spark-packages.org \
+    --master $PYSPARK_MASTER > /tmp/jupyter.log 2>&1 &
+echo "started pyspark"
+
+if [ -d "/root/ipynb/data" ]; then
+    for entry in /root/ipynb/data/*
+    do
+        hdfs dfs -copyFromLocal -f $entry /$(basename $entry)
+        echo "copied $entry to hdfs"
+    done
+else
+    echo "/root/ipynb/data does not exists"
+fi
+
+echo "done!"
+
+exit 0
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+Host *`
	`2`	`+StrictHostKeyChecking no`
	`3`	`+UserKnownHostsFile=/dev/null`