[R/SAS/Python]データの重複削除(単一変数)

目的
以下のようなデータから日付(DATE)が重複しているデータを削除したい。

元データ

DATEWEIGHT
110/0470.4
210/1169.6
310/1169.7
410/1870.3
510/2570.1
610/2570.1
711/0169.0


作成するデータ

DATEWEIGHT
110/0470.4
210/1169.6
410/1870.3
510/2570.1
711/0169.0

プログラム

RSASPythom
#ライブラリ呼び出し
library(dplyr)

#データフレームの作成
DATA1 <- data.frame(DATE = c("10/04", "10/11", "10/11", "10/18", "10/25", "10/25" ,"11/01"),
                    WEIGHT = c(70.4, 69.6, 69.7, 70.3, 70.1, 70.1 ,69.0))

#データフレームの重複削除(単一変数)
DATA2 <- DATA1 %>% distinct(DATE, .keep_all = TRUE)

dplyrパッケージのdistinct関数を使う。

/* データセットの作成 */
data DATA1;
  input DATE $ WEIGHT;
  cards;
  10/04 70.4
  10/11 69.6
  10/11 69.7
  10/18 70.3
  10/25 70.1
  10/25 70.1
  11/01 69.0
  ;
run;

/* データセットの重複削除(単一変数) */
proc sort data = DATA1 out = DATA2 nodupkey;
  by DATE;
run;

proc sortのnodupkeyオプションを指定する。

#ライブラリ呼び出し
import pandas as pd
#データフレームの作成
DATA1 = pd.DataFrame({ 'DATE' : (["10/04", "10/11", "10/11", "10/18", "10/25", "10/25" ,"11/01"]),
                       'WEIGHT' : ([70.4, 69.6, 69.7, 70.3, 70.1, 70.1 ,69.0])
                            })

#データフレームの重複削除(単一変数)
DATA2 = DATA1.drop_duplicates(subset = 'DATE')

drop_duplicates関数を使う。


ご意見・ご要望などありましたらコメント欄に書き込みくださいませ。
新規記事投稿のリクエストなどあれば問い合わせフォームからどうぞ。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です