画面解像度の追加方法
Ubuntu上でXを使用する際、目的の画面解像度が選択できない場合、以下を参考にして画面解像度を追加可能。 UbuntuTips/Hardware/HowToChangeMonitorResolution 解像度の確認方法 # 設定可能な解像度の一覧表示 $ xrandr 解像度の追加方法 $ cvt 800 600 # 2560x1440 59.96 Hz (CVT 3.69M9) hsync:...
View ArticleApache Spark 2.1.0(1)
Sparkが登場してからかなり経ちますが、Apache Mesosを試した時に少し触れただけでしたのでSparkのみを触れてみる事にしました。 環境はubuntu 16.04.2 LTSを使用しています。 Sparkのインストール ダウンロードはウェブサイトからビルド済みイメージを取得して、任意の場所に展開するだけです。...
View ArticleNFSの設定方法
Apache Sparkをクラスタモードで使用する際に、お手軽な方法なので。 内容はubuntuのサーバーガイドほぼそのまま。 サーバー側の設定 $ sudo apt-get install nfs-kernel-server/etc/exportsに公開するフォルダとアドレスを設定/opt/nfs_share *(rw,sync,no_root_squash) クライアント側の設定 $ sudo...
View ArticleSparkからのAmazon S3アクセス
s3へのアクセス方法にはs3, s3a, s3nの三種類が存在していて、それぞれ s3 … s3をブロックデバイスとしてアクセス。 s3a … Amazon Web Servicesのライブラリ経由のアクセス。 s3n … 独自実装によるアクセス。 大抵はs3aが使用できれば事足りる様な気がしています。sc = pyspark.SparkContext() confHadoop =...
View ArticleApache Spark 2.1.0(2)
前回のデータを使用して、もう少しそれっぽい物を。# -*- coding: utf-8 -*- import pyspark import json def main(): conf = pyspark.SparkConf() conf.setMaster("local[4]") conf.setAppName("nanohain sample2") sc =...
View ArticleApache Spark 2.1.0(3)
spark-submit時にスクリプトにコマンドライン引数を渡す方法。 sys.argvに普通に入っていますので、argparseモジュールを使用したり出来ます。# -*- coding: utf-8 -*- import sys import argparse import pyspark def main(): parser = argparse.ArgumentParser()...
View ArticleApache Spark 2.1.0(4)
SparkはCluster環境でこそ本領を発揮するのですが、そういった環境はなかなか用意するのが手間なので、試しにDocker化してみました。 雰囲気ぐらいは確認出来るかと… Dockerfileはsingularities/sparkを手本にしています。FROM ubuntu:16.04 MAINTAINER MizunagiKB RUN apt-get update && ¥...
View ArticleApache Spark 2.1.0(5)
やる気の感じられないサンプルなのは、動作メモのつもりで作成しているため… recommendation # -*- coding: utf-8 -*- import pyspark from pyspark.ml import recommendation from pyspark.ml import evaluation def main(): conf = pyspark.SparkConf()...
View ArticleApache Spark 2.1.0(6)
Spark Streaming処理のデモ ストリーム生成側 # -*- coding: utf-8 -*- import random import socket import time def main(): socketServer = socket.socket(socket.AF_INET, socket.SOCK_STREAM)...
View ArticleApache Spark 2.1.0(7)
ファイル監視によるSpark Stream。 ストリーム生成側 以下の例では#NANOHAが含まれるツイートを取集。 (#NANOHAでツイートが拾えない場合は適当なキーワードに変更してください。) ファイルを使用するストリームでは、Spark側が監視しているフォルダに直接書き込まず、一旦別の場所に作成してから監視下のフォルダに移動させる必要があります。# -*- coding: utf-8 -*-...
View Article
More Pages to Explore .....