データサイエンス(改訂版)

グループで作成したもの

パワーポイント
第7回のを横浜駅以外で再度調べた。

おすすめのエリアについて

私は家賃と合計時間からおすすめのエリアについて調べようと考えた。

合計時間                           家賃


この二つの画像から湘南新宿ライン高崎線が家賃が低く合計時間が少ないことが読み取れた。
湘南新宿ライン 路線図
 次に湘南新宿ラインでの駅ごとに比較をしてみた。

合計時間                           家賃


このグラフから家賃が一番低い駅が戸塚駅で合計時間が一番低い駅は横浜駅だった。
ここから私は戸塚駅に注目して考えようと思う。
そこで間取りについて調べてみようと考えた。

戸塚駅                          全体


戸塚駅と全体での間取りについて調べてみたところ戸塚駅周辺の家賃は平均と比べて少し高いことがわかる。
しかし、全体との差はあまり大きくないので私は戸塚駅がおすすめエリアであると考えた。

また戸塚駅について調べたところこのエリアの中では比較的治安が良く、
駅周辺の開発も近年進んできており女性の方でも暮らしやすいエリアとなっていた。
参考サイト

おすすめエリア

戸塚駅

ソースコード

  1. import pandas as pd # データ分析に用いるライブラリ
  2. import matplotlib.pyplot as plt # グラフ表示に用いるライブラリ
  3. pd.set_option('display.unicode.east_asian_width', True) # 表示のずれを少し緩和
  4. plt.rcParams['font.family'] = 'IPAexGothic' # グラフ表示におけるフォントの指定
  5. plt.rcParams['font.size'] = 6 # グラフ表示におけるフォントの指定
  6. data_path = "./data.csv"
  7. df_data = pd.read_csv(data_path, encoding="utf-8-sig")
  8. #
  9. df_data.loc[:, "路線"].hist()
  10. plt.xlabel("路線") # 横軸のラベル
  11. plt.ylabel("家賃") # 縦軸のラベル
  12. plt.title("路線のヒストグラム") # グラフのタイトル
  13. plt.show()
  14. df_data.groupby("路線").mean().loc[:,"家賃"].sort_values()[:10].plot.bar(figsize = (10,8))
  15. plt.subplots_adjust(left=0.02,right=0.98,bottom=0.3)
  16. print(df_data.groupby("路線").mean().loc[:,"家賃"].sort_values()[:10])
  17. df_data.groupby("路線").mean().loc[:,"家賃"].sort_values()[:10].plot.bar(figsize = (10, 8))
  18. plt.subplots_adjust(left=0.02,right=0.98,bottom=0.3)
  19. plt.show()
  20. # 路線と家賃の平均のグラフ
  21. print(df_data.groupby("路線").mean().loc[:,"合計時間"].sort_values()[:10])
  22. df_data.groupby("路線").mean().loc[:,"合計時間"].sort_values()[:10].plot.bar(figsize = (10, 8))
  23. plt.subplots_adjust(left=0.02,right=0.98,bottom=0.3)
  24. plt.show()
  25. # 路線と合計時間の平均のグラフ
  26. mask = (df_data["路線"] == "湘南新宿ライン高海")
  27. df_mean = df_data[mask].groupby("駅").mean()
  28. x = df_mean.index
  29. y = df_mean.loc[:, "家賃"]
  30. plt.bar(x, y)
  31. plt.xlabel("駅")
  32. plt.ylabel("家賃")
  33. plt.show()
  34. # 高崎線の駅ごとの家賃の平均
  35. df_mean = df_data[mask].groupby("駅").mean()
  36. x = df_mean.index
  37. y = df_mean.loc[:, "合計時間"]
  38. plt.bar(x, y)
  39. plt.xlabel("駅")
  40. plt.ylabel("合計時間")
  41. plt.show()
  42. # 高崎線の駅ごとの合計時間の平均
  43. print(df_data.groupby("間取り").mean().loc[:,"家賃"].sort_values()[:10])
  44. df_data.groupby("間取り").mean().loc[:,"家賃"].sort_values()[:10].plot.bar(figsize = (10, 8))
  45. plt.subplots_adjust(left=0.02,right=0.98,bottom=0.3)
  46. plt.show()
  47. # 間取りごとの家賃の平均
  48. mask = (df_data["駅"] == "戸塚駅")
  49. df_mean = df_data[mask].groupby("間取り").mean()
  50. x = df_mean.index
  51. y = df_mean.loc[:, "家賃"]
  52. plt.bar(x, y)
  53. plt.xlabel("間取り")
  54. plt.ylabel("家賃")
  55. plt.show()
  56. # 戸塚駅の間取りの家賃の平均