开发者

Pandas的DataFrame如何做交集,并集,差集与对称差集

目录
  • 一、简介
  • 二、交集
  • 三、并集
  • 四、差集
  • 五、对称差集

一、简介

python的数据类型集合:由不同元素组成的集合,集合中是一组无序排列的可 Hash 的值(不可变类型),可以作为字典的Key

Pandas中的DataFrameDataFrame是一个表格型的数据结构,可以理解为带有标签的二维数组。

常用的集合操作如下图所示:

Pandas的DataFrame如何做交集,并集,差集与对称差集

二、交集

Pandas的DataFrame如何做交集,并集,差集与对称差集

  • pandasmerge 功能默认为 inner 连接,可以实现取交集
  • 集合 set 可以直接用 & 取交集
import pandas as pd

print("CSDN叶庭云:https://yetingyun.blog.csdn.net/")
set1 = {"Python", "Go", "C++", "java"}
set2 = {"Go", "C++", "javascript", "C"}
set1 & set2

df1 = pd.DataFrame([
    ['1', 'Python'],
 www.cppcns.com   ['2', 'Go'],
    ['3', 'C++'],
    ['4', 'Java'],
  ], columns=['id','name'])


df2 = pd.DataFrame([
    ['2','Go'],
    ['3','C++'],
    ['5','JavaScript'],
    ['6','C'],
  ], columns=['id','name'])

pd.merge(df1, df2, on=['id','name'])

操作如下所示:

Pandas的DataFrame如何做交集,并集,差集与对称差集

三、并集

Pandas的DataFrame如何做交集,并集,差集与对称差集

  • Pandas的 merge 方法里参数 how 的取值有 “left”, “right”, “inner”, “outer”,默认是inner。outer外连接可以实现取并集。另一种方法也可以df1.append(df2)后去重,保留第一次出现的也可以实现取并集。
  • 集合 set 可以直接用 | 取并集
set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set1 | set2

print("CSDN叶庭云:https://yetingyun.blog.csdn.net/")

df1 = pd.DataFrame([
    ['1', 'Python'],
    ['2', 'Go'],
    ['3', 'C++'],
    ['4', 'Java'],
  ], columns=['id','name'])


df2 = pd.DataFrame([
    ['2','Go'],
    ['3','C++'],
    ['5','JavaScript'],
    ['6','C'],
  ], columns=['id','name'])

pd.merge(df1, df2,
    on=['id','name'],
    how='outer')
    
df3 = df1.append(df2)
df3.drop_duplicates(subset=['id'], keep="first")

Pandas的DataFrame如何做交集,并集,差集与对称差集

四、差集

Pandas的DataFrame如何做交集,并集,差集与对称差集

set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set1 - set2

print("CSDN叶庭云:https://yetingyun.blog.csdn.net/")
set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set2 - set1

# df1-df2
df1 = pd.DataFrame([
    ['1', 'Python'],
    ['2', 'Go'],
    ['3', http://www.cppcns.com'C++'],
    ['4', 'Java'],
  ], columns=['id','name'])


df2 = pd.DataFrame([
    ['2','Go'],
    ['3','C++'],
    ['5','JavaScript'],
    ['6','C'],
  ], columns=['id','name'])

df1 = df1.append(df2)
df1 = df1.append(df2)
set_diff_df = df1.drop_duplicates(subset=df1.columns,
                 keep=False)
set_diff_df

# df2-df1
df1 = pd.DataFrame([
    ['1', 'Python'],
    ['2', 'Go'],
    ['3', 'C++'],
    [www.cppcns.com'4', 'Java'],
  ], columns=['id','name'])

df2 = pd.DataFrame([
    ['2'www.cppcns.com,'Go'],
    ['3','C++'],
    ['5','JavaScript'],
    ['6','C'],
  ], columns=['id','name'])

print("CSDN叶庭云:https://yetingyun.blog.csdn.net/")
df2 = df2.append(df1)
df2 = df2.append(df1)
set_diff_df = df2.drop_duplicates(subset=df2.columns,
                 keep=False)
set_diff_df

# df1-df2
df1 = pd.DataFrame([
    ['1', 'Python'],
    ['2', 'Go'],
    ['3', 'C++'],
    ['4', 'Java'],
  ], columns=['id','name'])


df2 = pd.DataFrame([
    ['2','Go'],
    ['3','C++'],
    ['5','JavaScript'],
    ['6','C'],
  ], columns=['id','name'])

pd.concat([df1, df2, df2]).drop_duplicates(keep=False)

# df2-df1
df1 = pd.DataFrame([
    ['1', 'Python'],
    ['2', 'Go编程客栈'],
    ['3', 'C++'],
    ['4', 'Java'],
  ], columns=['id','name'])


df2 = pd.DataFrame([
    ['2','Go'],
    ['3','C++'],
    ['5','JavaScript'],
    ['6','C'],
  ], columns=['id','name'])

pd.concat([df2, df1, df1]).drop_duplicates(keep=False)

Pandas的DataFrame如何做交集,并集,差集与对称差集

五、对称差集

Pandas的DataFrame如何做交集,并集,差集与对称差集

print("CSDN叶庭云:https://yetingyun.blog.csdn.net/")
set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set1 ^ set2  # 对称差集

# 去重  不保留重复的:即可实现取对称差集
df3 = df1.append(df2)

df3.drop_duplicates(subset=['id'], keep=False)

Pandas的DataFrame如何做交集,并集,差集与对称差集

 到此这篇关于Pandas的DataFrame如何做交集,并集,差集与对称差集的文章就介绍到这了,更多相关Pandas的DataFrame如何做交集,并集,差集与对称差集内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

0

上一篇:

下一篇:

精彩评论

暂无评论...
验证码 换一张
取 消

最新开发

开发排行榜