Pandas Explode Column¶

This notebook demonstrates how to explode a column with nested values, either in CSV format or a dictionary (e.g. JSON).

NOTE: Method 3 of the CSV explosdion is the most efficient, and skip down to the Explode Dict Column for a super efficient way of exploding a dictionary of values in a Pandas DataFrame.

import pandas as pd

Data¶

df = pd.DataFrame({'csv' : ['value1',
                            'value1,value2',
                            'value1,value2,value3,value4,value5,value6',
                            'value1',
                            'value1,value2,value3,value4'],
                   'json' : [{'key1':'value1', 'key2':'value2.1', 'key3':'value3.1', 'key4':'value4.1'},
                             {'key1':'value2', 'key2':'value2.2', 'key3':'value3.2', 'key4':'value4.2'},
                             {'key1':'value3', 'key2':'value2.3', 'key3':'value3.3'},
                             {'key1':'value4', 'key2':'value2.4'},
                             {'key1':'value5', 'key2':'value2.5'}]
                  })

df.index.names = ['id']

df

Explode CSV Column¶

Method 1¶

data = {i:row.csv.split(',') for i,row in df.iterrows()}

df_exploded = pd.DataFrame.from_dict(data, orient='index').stack().to_frame()

df_exploded.columns = ['value']
df_exploded.index.names = ['id', 'csv_sequence']

df_exploded

Method 2¶

df_exploded = df['csv'].str.split(pat=',', expand=True).stack().to_frame()

df_exploded.columns = ['value']
df_exploded.index.names = ['id', 'csv_sequence']

df_exploded

Method 3¶

df_exploded = df.csv.apply(lambda x: pd.Series(x.split(','))).stack().to_frame()

df_exploded.columns = ['value']
df_exploded.index.names = ['id', 'csv_sequence']

df_exploded

Join¶

df.join(df_exploded, how='left').reset_index(level='csv_sequence')

Explode Dict Column¶

df

df.json.apply(pd.Series)

df.join(df.json.apply(pd.Series), how='left')

	csv	json
id
0	value1	{'key1': 'value1', 'key2': 'value2.1', 'key3':...
1	value1,value2	{'key1': 'value2', 'key2': 'value2.2', 'key3':...
2	value1,value2,value3,value4,value5,value6	{'key1': 'value3', 'key2': 'value2.3', 'key3':...
3	value1	{'key1': 'value4', 'key2': 'value2.4'}
4	value1,value2,value3,value4	{'key1': 'value5', 'key2': 'value2.5'}

		value
id	csv_sequence
0	0	value1
1	0	value1
1	1	value2
2	0	value1
	1	value2
	2	value3
	3	value4
	4	value5
	5	value6
3	0	value1
4	0	value1
	1	value2
	2	value3
	3	value4

	key1	key2	key3	key4
id
0	value1	value2.1	value3.1	value4.1
1	value2	value2.2	value3.2	value4.2
2	value3	value2.3	value3.3	NaN
3	value4	value2.4	NaN	NaN
4	value5	value2.5	NaN	NaN