[R/SAS/Python]データの重複削除(単一変数)
目的
以下のようなデータから日付(DATE)が重複しているデータを削除したい。
元データ
DATE | WEIGHT | |
---|---|---|
1 | 10/04 | 70.4 |
2 | 10/11 | 69.6 |
3 | 10/11 | 69.7 |
4 | 10/18 | 70.3 |
5 | 10/25 | 70.1 |
6 | 10/25 | 70.1 |
7 | 11/01 | 69.0 |
作成するデータ
DATE | WEIGHT | |
---|---|---|
1 | 10/04 | 70.4 |
2 | 10/11 | 69.6 |
4 | 10/18 | 70.3 |
5 | 10/25 | 70.1 |
7 | 11/01 | 69.0 |
プログラム
RSASPythom
#ライブラリ呼び出し library(dplyr) #データフレームの作成 DATA1 <- data.frame(DATE = c("10/04", "10/11", "10/11", "10/18", "10/25", "10/25" ,"11/01"), WEIGHT = c(70.4, 69.6, 69.7, 70.3, 70.1, 70.1 ,69.0)) #データフレームの重複削除(単一変数) DATA2 <- DATA1 %>% distinct(DATE, .keep_all = TRUE)
dplyrパッケージのdistinct関数を使う。
/* データセットの作成 */ data DATA1; input DATE $ WEIGHT; cards; 10/04 70.4 10/11 69.6 10/11 69.7 10/18 70.3 10/25 70.1 10/25 70.1 11/01 69.0 ; run; /* データセットの重複削除(単一変数) */ proc sort data = DATA1 out = DATA2 nodupkey; by DATE; run;
proc sortのnodupkeyオプションを指定する。
#ライブラリ呼び出し import pandas as pd #データフレームの作成 DATA1 = pd.DataFrame({ 'DATE' : (["10/04", "10/11", "10/11", "10/18", "10/25", "10/25" ,"11/01"]), 'WEIGHT' : ([70.4, 69.6, 69.7, 70.3, 70.1, 70.1 ,69.0]) }) #データフレームの重複削除(単一変数) DATA2 = DATA1.drop_duplicates(subset = 'DATE')
drop_duplicates関数を使う。
ご意見・ご要望などありましたらコメント欄に書き込みくださいませ。
新規記事投稿のリクエストなどあれば問い合わせフォームからどうぞ。