[R/SAS/Python]データの重複削除（単一変数）

2021年10月16日 2021年11月25日

ada

目的
以下のようなデータから日付（DATE）が重複しているデータを削除したい。

元データ

	DATE	WEIGHT
1	10/04	70.4
2	10/11	69.6
3	10/11	69.7
4	10/18	70.3
5	10/25	70.1
6	10/25	70.1
7	11/01	69.0

作成するデータ

	DATE	WEIGHT
1	10/04	70.4
2	10/11	69.6
4	10/18	70.3
5	10/25	70.1
7	11/01	69.0

プログラム

RSASPythom

#ライブラリ呼び出し
library(dplyr)

#データフレームの作成
DATA1 <- data.frame(DATE = c("10/04", "10/11", "10/11", "10/18", "10/25", "10/25" ,"11/01"),
                    WEIGHT = c(70.4, 69.6, 69.7, 70.3, 70.1, 70.1 ,69.0))

#データフレームの重複削除（単一変数）
DATA2 <- DATA1 %>% distinct(DATE, .keep_all = TRUE)

dplyrパッケージのdistinct関数を使う。

/* データセットの作成 */
data DATA1;
  input DATE $ WEIGHT;
  cards;
  10/04 70.4
  10/11 69.6
  10/11 69.7
  10/18 70.3
  10/25 70.1
  10/25 70.1
  11/01 69.0
  ;
run;

/* データセットの重複削除（単一変数） */
proc sort data = DATA1 out = DATA2 nodupkey;
  by DATE;
run;

proc sortのnodupkeyオプションを指定する。

#ライブラリ呼び出し
import pandas as pd
#データフレームの作成
DATA1 = pd.DataFrame({ 'DATE' : (["10/04", "10/11", "10/11", "10/18", "10/25", "10/25" ,"11/01"]),
                       'WEIGHT' : ([70.4, 69.6, 69.7, 70.3, 70.1, 70.1 ,69.0])
                            })

#データフレームの重複削除（単一変数）
DATA2 = DATA1.drop_duplicates(subset = 'DATE')

drop_duplicates関数を使う。

ご意見・ご要望などありましたらコメント欄に書き込みくださいませ。
新規記事投稿のリクエストなどあれば問い合わせフォームからどうぞ。