2015-06-24

Apache Spark on Windows 7 in standalone mode


Nếu muốn xài trên Windows, install nhanh để xài tạm cho mấy course trên Udemy hay Coursera. Follow theo tut

How to run Apache Spark on Windows7 in standalone mode

tại https://nishutayaltech.blogspot.com/2015/04/how-to-run-apache-spark-on-windows7-in.html

Nếu thích thì dùng máy ảo, mình thường dùng CentOS, tự install. Không muốn mất công install thì xài CDH với VirtualBox cho nhanh.

Tóm tắt lại như sau:


  1. Install Java, set JAVA_HOME
  2. Install Scala, set SCALA_HOME, add %SCALA_HOME%\bin vào PATH
  3. Install SBT, set SBT_HOME, add %SBT_HOME%\bin vào PATH
  4. Download và install Spark prebuilt với Hadoop, untar với 7-zip (ext download về là tgz hay tar), set SPARK_HOME, add %SPARK_HOME%\bin vào PATH
  5. Chạy thử spark-shell nếu báo lỗi Your hostname, xxxxxx resolves to a loopback/non-reachab le address: xxxx:0:0:0:xxxx:xxxx:xxx:xxxx%wlan2, but we couldn't find any extern al IP address! thì dùng SPARK_LOCAL_HOSTNAME=localhost D:\dev\spark-1.6.1-bin-hadoop2.6\bin\spark-shell hoặc spark-shell -c spark.driver.host=localhost hoặc dùng Environment Variables
  6. Nếu báo lỗi java.lang.RuntimeException: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwx------ thì download winutils.exe giả sử vào D:\dev\hadoop-2.6.0\bin khi đó /tmp/hive sẽ tương ứng với D:\tmp\hive. Set HADOOP_HOME=D:\dev\hadoop-2.6.0 và chmod: D:\dev\hadoop-2.6.0\bin\winutils.exe chmod 777 D:\tmp\hive