LoginSignup
0
0

More than 3 years have passed since last update.

SAS Viya The Python Perspectiveで利用されている元データについて

Last updated at Posted at 2019-04-25

SAS Viyaを使ったPythonによる開発手法についてはSAS Viya The Python Perspectiveを読んでいただくことで前処理であったり、データの簡易分析について理解してもらえます。

本書籍では幾つかデータを用意した上でコードを書いていますが、そのデータの場所を紹介します。

organic.sashdat

organic.sashdatという名前自体のファイルは公開していませんが、元データになるCSVについてはGitHubにて公開しています。なお、このファイルはZipで52.7MP、解凍すると
252.9MBあります。本番環境であれば問題ありませんが、デモ環境では25MB以上のファイルがアップロードできないため、一部だけを取り出す必要があります。

例えばRubyの場合は以下のようなスクリプトでデータの一部だけをピックアップできます。

f = File.open(ARGV[0])
s = ARGV[1].to_i
f.each_line.with_index do |l, i|
  next if i % s != 0
  puts l
end

以下はサイズを30分の1にします。

$ ruby csv.rb ./organics.csv 30 > organics_mini.csv

読み込むと構造が分かりやすくなります。

from swat import *

cashost='localhost'
casport=5570
useremail='dev@sas.com'
userpassword='password'
casauth='~/.authinfo'
conn = CAS(cashost, casport, useremail, userpassword, caslib="casuser")
cars = conn.upload('organics2.csv').casTable
cars.columninfo()
Column ID Type RawLength FormattedLength NFL NFD
0 ID 1 double 8 12 0
1 DemAffl 2 double 8 12 0
2 DemAge 3 double 8 12 0
3 DemGender 4 varchar 1 1 0
4 DemHomeowner 5 varchar 3 3 0
5 DemAgeGroup 6 varchar 7 7 0
6 DemCluster 7 double 8 12 0
7 DemReg 8 varchar 10 10 0
8 DemTVReg 9 varchar 12 12 0
9 DemFlag1 10 double 8 12 0
10 DemFlag2 11 double 8 12 0
11 DemFlag3 12 double 8 12 0
12 DemFlag4 13 double 8 12 0
13 DemFlag5 14 double 8 12 0
14 DemFlag6 15 double 8 12 0
15 DemFlag7 16 double 8 12 0
16 DemFlag8 17 double 8 12 0
17 PromClass 18 varchar 8 8 0
18 PromTime 19 double 8 12 0
19 TargetBuy 20 varchar 6 6 0
20 Bought_Beverages 21 varchar 3 3 0
21 Bought_Bakery 22 varchar 3 3 0
22 Bought_Canned 23 varchar 3 3 0
23 Bought_Dairy 24 varchar 3 3 0
24 Bought_Baking 25 varchar 3 3 0
25 Bought_Frozen 26 varchar 3 3 0
26 Bought_Meat 27 varchar 3 3 0
27 Bought_Fruits 28 varchar 3 3 0
28 Bought_Vegetables 29 varchar 3 3 0
29 Bought_Cleaners 30 varchar 3 3 0
30 Bought_PaperGoods 31 varchar 3 3 0
31 Bought_Others 32 varchar 3 3 0
32 purchase_3mon 33 double 8 12 0
33 purchase_6mon 34 double 8 12 0
34 purchase_9mon 35 double 8 12 0
35 purchase_12mon 36 double 8 12 0

cars.csv

cars.csvはGitHubにて公開しています。リポジトリがorganic.csvとは異なるので注意してください。こちらはサイズが小さいので、デモ環境でもアップロードして利用できます。

構造は次の通りです。

Column ID Type RawLength FormattedLength NFL NFD
0 Make 1 varchar 13 13 0
1 Model 2 varchar 39 39 0
2 Type 3 varchar 6 6 0
3 Origin 4 varchar 6 6 0
4 DriveTrain 5 varchar 5 5 0
5 MSRP 6 double 8 12 0
6 Invoice 7 double 8 12 0
7 EngineSize 8 double 8 12 0
8 Cylinders 9 double 8 12 0
9 Horsepower 10 double 8 12 0
10 MPG_City 11 double 8 12 0
11 MPG_Highway 12 double 8 12 0
12 Weight 13 double 8 12 0
13 Wheelbase 14 double 8 12 0
14 Length 15 double 8 12 0

まとめ

この他、デモ用のデータであったり、GitHubリポジトリ内にもファイルがアップロードしてあります。SAS Viyaを体験する際にご利用ください。

SAS for Developers | SAS

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0