import pandas as pd
import numpy as np
import seaborn as sns
import datetime
from math import cos, asin, sqrt, pi


gustav = pd.read_csv('gustav.csv')
kristian = pd.read_csv('kristian.csv')


kristian.head()


kristian['dateparsed'] = pd.to_datetime(kristian['datetime'], infer_datetime_format=True)
gustav['dateparsed'] = pd.to_datetime(gustav['datetime'], infer_datetime_format=True)


sns.lineplot(x=kristian['dateparsed'], y=kristian['speed'])

<AxesSubplot:xlabel='dateparsed', ylabel='speed'>


kristian['shiftlat'] = kristian['latitude'].shift(periods=1)
kristian['shiftlong'] = kristian['longitude'].shift(periods=1)
gustav['shiftlat'] = gustav['latitude'].shift(periods=1)
gustav['shiftlong'] = gustav['longitude'].shift(periods=1)

# view the sample data
kristian.head()


def distance(lat1, lon1, lat2, lon2):
    p = pi/180
    a = 0.5 - cos((lat2-lat1)*p)/2 + cos(lat1*p) * cos(lat2*p) * (1-cos((lon2-lon1)*p))/2
    return 12742 * asin(sqrt(a))

kristian['distance'] = kristian.apply(lambda row: distance(row['shiftlat'], row['shiftlong'], row['latitude'], row['longitude']), axis=1)
gustav['distance'] = gustav.apply(lambda row: distance(row['shiftlat'], row['shiftlong'], row['latitude'], row['longitude']), axis=1)

kristian.head()


kristian['distance'].sum()

43.43302431102427


kristian['totaldistance'] = kristian['distance'].cumsum()
gustav['totaldistance'] = gustav['distance'].cumsum()

kristian.head()


vals = kristian['totaldistance'].value_counts()
vals[vals > 2].sort_index()

0.263526       12
0.265077        3
43.049955       4
43.057251      13
43.084558       9
43.089010      19
43.089105       4
43.090711       8
43.091035       8
43.096696      16
43.101549       4
43.103504      12
43.110125      10
43.110393       3
43.113543       3
43.126005      10
43.126706      22
43.260007      21
43.260102       8
43.260367       5
43.291533      12
43.293714      15
43.301594      11
43.302578       8
43.302712       3
43.303331       3
43.303420       5
43.303604       9
43.306179      15
43.315430      16
43.315564      10
43.315653       3
43.315743       9
43.316295       6
43.317058      13
43.317242       9
43.317332       3
43.317812       6
43.318231       7
43.321947       3
43.322077       3
43.322166       5
43.322435      10
43.323163       3
43.323252       6
43.323482       5
43.325534      26
43.325623       3
43.326070    1183
43.326160       3
43.422613      11
43.422708       5
43.422797       4
43.425766       3
43.426207       3
43.433024     163
Name: totaldistance, dtype: int64


sns.lineplot(x=gustav['dateparsed'], y=gustav['speed'])

<AxesSubplot:xlabel='dateparsed', ylabel='speed'>


k_running = kristian.loc[kristian['totaldistance'] < 43.049955]

sns.lineplot(x=k_running['dateparsed'], y=k_running['speed'])

<AxesSubplot:xlabel='dateparsed', ylabel='speed'>

	datetime	latitude	longitude	speed	elevation	heartrate	core_temperature	skin_temperature	stride_length
0	2022-10-08 21:27:05+00:00	19.639484	-155.997351	0.000	9.6	138.0	38.860001	NaN	NaN
1	2022-10-08 21:27:06+00:00	19.639443	-155.997342	0.000	9.4	139.0	38.860001	34.200001	NaN
2	2022-10-08 21:27:07+00:00	19.639391	-155.997383	0.000	9.4	138.0	38.860001	34.200001	NaN
3	2022-10-08 21:27:08+00:00	19.639349	-155.997340	0.000	9.4	139.0	38.860001	34.200001	NaN
4	2022-10-08 21:27:09+00:00	19.639317	-155.997337	1.148	9.2	139.0	38.860001	34.200001	NaN

	datetime	latitude	longitude	speed	elevation	heartrate	core_temperature	skin_temperature	stride_length	shiftlat	shiftlong	dateparsed
0	2022-10-08 21:27:05+00:00	19.639484	-155.997351	0.000	9.6	138.0	38.860001	NaN	NaN	NaN	NaN	2022-10-08 21:27:05+00:00
1	2022-10-08 21:27:06+00:00	19.639443	-155.997342	0.000	9.4	139.0	38.860001	34.200001	NaN	19.639484	-155.997351	2022-10-08 21:27:06+00:00
2	2022-10-08 21:27:07+00:00	19.639391	-155.997383	0.000	9.4	138.0	38.860001	34.200001	NaN	19.639443	-155.997342	2022-10-08 21:27:07+00:00
3	2022-10-08 21:27:08+00:00	19.639349	-155.997340	0.000	9.4	139.0	38.860001	34.200001	NaN	19.639391	-155.997383	2022-10-08 21:27:08+00:00
4	2022-10-08 21:27:09+00:00	19.639317	-155.997337	1.148	9.2	139.0	38.860001	34.200001	NaN	19.639349	-155.997340	2022-10-08 21:27:09+00:00

	datetime	latitude	longitude	speed	elevation	heartrate	core_temperature	skin_temperature	stride_length	shiftlat	shiftlong	dateparsed	distance
0	2022-10-08 21:27:05+00:00	19.639484	-155.997351	0.000	9.6	138.0	38.860001	NaN	NaN	NaN	NaN	2022-10-08 21:27:05+00:00	NaN
1	2022-10-08 21:27:06+00:00	19.639443	-155.997342	0.000	9.4	139.0	38.860001	34.200001	NaN	19.639484	-155.997351	2022-10-08 21:27:06+00:00	0.004745
2	2022-10-08 21:27:07+00:00	19.639391	-155.997383	0.000	9.4	138.0	38.860001	34.200001	NaN	19.639443	-155.997342	2022-10-08 21:27:07+00:00	0.007174
3	2022-10-08 21:27:08+00:00	19.639349	-155.997340	0.000	9.4	139.0	38.860001	34.200001	NaN	19.639391	-155.997383	2022-10-08 21:27:08+00:00	0.006531
4	2022-10-08 21:27:09+00:00	19.639317	-155.997337	1.148	9.2	139.0	38.860001	34.200001	NaN	19.639349	-155.997340	2022-10-08 21:27:09+00:00	0.003554

	datetime	latitude	longitude	speed	elevation	heartrate	core_temperature	skin_temperature	stride_length	shiftlat	shiftlong	dateparsed	distance	totaldistance
0	2022-10-08 21:27:05+00:00	19.639484	-155.997351	0.000	9.6	138.0	38.860001	NaN	NaN	NaN	NaN	2022-10-08 21:27:05+00:00	NaN	NaN
1	2022-10-08 21:27:06+00:00	19.639443	-155.997342	0.000	9.4	139.0	38.860001	34.200001	NaN	19.639484	-155.997351	2022-10-08 21:27:06+00:00	0.004745	0.004745
2	2022-10-08 21:27:07+00:00	19.639391	-155.997383	0.000	9.4	138.0	38.860001	34.200001	NaN	19.639443	-155.997342	2022-10-08 21:27:07+00:00	0.007174	0.011919
3	2022-10-08 21:27:08+00:00	19.639349	-155.997340	0.000	9.4	139.0	38.860001	34.200001	NaN	19.639391	-155.997383	2022-10-08 21:27:08+00:00	0.006531	0.018450
4	2022-10-08 21:27:09+00:00	19.639317	-155.997337	1.148	9.2	139.0	38.860001	34.200001	NaN	19.639349	-155.997340	2022-10-08 21:27:09+00:00	0.003554	0.022004

Nick Jantz

Kona Run Data Analysis Part 1

Background

Import necessary packages¶

Read CSVs¶

View the data¶

Parse dates¶

Sample graph¶

Prepare to calculate distance ran¶

Create a distance formula and apply it to both data sets¶

View total distance¶

Add a column for cumulative distance¶

Remove extra timestamps¶