kaggle數據分析傢庭電力消耗過程詳解
一、傢庭電力消耗分析
1.背景描述
本數據集包含瞭一個傢庭6個月的用電數據,收集於2007年1月至2007年6月。
這些數據包括全球有功功率、全球無功功率、電壓、全球強度、分項計量1(廚房)、分項計量2(洗衣房)和分項計量3(電熱水器和空調)等信息。該數據集共有260,640個測量值,可以為瞭解傢庭用電情況提供重要的見解。
我們要感謝databeats團隊提供這個數據集。如果你在你的研究中使用這個數據集,請註明原作者:Georges Hébrail 和 Alice Bérard
數據說明
列名 | 說明 |
---|---|
Date | 日期 |
Time | 時間 |
Globalactivepower | 該傢庭所消耗的總有功功率(千瓦) |
Globalreactivepower | 該傢庭消耗的總無功功率(千瓦) |
Voltage | 向傢庭輸送電力的電壓(伏特) |
Global_intensity | 輸送到傢庭的平均電流強度(安培) |
Submetering1 | 廚房消耗的有功功率(千瓦) |
Submetering2 | 洗衣房所消耗的有功功率(千瓦) |
Submetering3 | 電熱水器和空調所消耗的有功功率(千瓦) |
2.數據來源
www.kaggle.com/datasets/th…
3.問題描述
本數據集可以用於機器學習的目的,如預測性建模或時間序列分析。例如,人們可以使用這個數據集,根據過去的數據來預測未來的傢庭用電量。
分析不同類型的電氣設備對耗電量的影響
研究電力消耗如何隨時間和地點而變化
構建一個預測模型來預測未來的電力消耗
二、數據加載
!pip install prophet -i https://pypi.tuna.tsinghua.edu.cn/simple
data_path="/home/mw/input/Household_Electricity4767/household_power_consumption.csv"
import pandas as pd import seaborn as sns import numpy as np from tqdm.auto import tqdm from prophet import Prophet
df=pd.read_csv(data_path)
df.head()
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
index | Date | Time | Global_active_power | Global_reactive_power | Voltage | Global_intensity | Sub_metering_1 | Sub_metering_2 | Sub_metering_3 |
---|---|---|---|---|---|---|---|---|---|
0 | 1/1/07 | 0:00:00 | 2.58 | 0.136 | 241.97 | 10.6 | 0 | 0 | 0.0 |
1 | 1/1/07 | 0:01:00 | 2.552 | 0.1 | 241.75 | 10.4 | 0 | 0 | 0.0 |
2 | 1/1/07 | 0:02:00 | 2.55 | 0.1 | 241.64 | 10.4 | 0 | 0 | 0.0 |
3 | 1/1/07 | 0:03:00 | 2.55 | 0.1 | 241.71 | 10.4 | 0 | 0 | 0.0 |
4 | 1/1/07 | 0:04:00 | 2.554 | 0.1 | 241.98 | 10.4 | 0 | 0 | 0.0 |
df.describe()
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
index | Sub_metering_3 | |
---|---|---|
count | 260640.000000 | 256869.000000 |
mean | 130319.500000 | 5.831825 |
std | 75240.431418 | 8.186709 |
min | 0.000000 | 0.000000 |
25% | 65159.750000 | 0.000000 |
50% | 130319.500000 | 0.000000 |
75% | 195479.250000 | 17.000000 |
max | 260639.000000 | 20.000000 |
df.dtypes
index int64 Date object Time object Global_active_power object Global_reactive_power object Voltage object Global_intensity object Sub_metering_1 object Sub_metering_2 object Sub_metering_3 float64 dtype: object
df['Date']=pd.DatetimeIndex(df['Date'])
make_em_num = ['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity', 'Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']
def floating(string): try: return float(string) except: return float(0)
for column in tqdm(make_em_num): df[column] = df[column].apply(lambda item: floating(item))
HBox(children=(FloatProgress(value=0.0, max=7.0), HTML(value='')))
df.dtypes
index int64 Date datetime64[ns] Time object Global_active_power float64 Global_reactive_power float64 Voltage float64 Global_intensity float64 Sub_metering_1 float64 Sub_metering_2 float64 Sub_metering_3 float64 dtype: object
df.head()
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
index | Date | Time | Global_active_power | Global_reactive_power | Voltage | Global_intensity | Sub_metering_1 | Sub_metering_2 | Sub_metering_3 |
---|---|---|---|---|---|---|---|---|---|
0 | 2007-01-01 | 0:00:00 | 2.580 | 0.136 | 241.97 | 10.6 | 0.0 | 0.0 | 0.0 |
1 | 2007-01-01 | 0:01:00 | 2.552 | 0.100 | 241.75 | 10.4 | 0.0 | 0.0 | 0.0 |
2 | 2007-01-01 | 0:02:00 | 2.550 | 0.100 | 241.64 | 10.4 | 0.0 | 0.0 | 0.0 |
3 | 2007-01-01 | 0:03:00 | 2.550 | 0.100 | 241.71 | 10.4 | 0.0 | 0.0 | 0.0 |
4 | 2007-01-01 | 0:04:00 | 2.554 | 0.100 | 241.98 | 10.4 | 0.0 | 0.0 | 0.0 |
sns.heatmap(df.drop(['index','Date','Time'], axis=1).corr(), annot=True)
<matplotlib.axes._subplots.AxesSubplot at 0x7f31603ed4e0>
三、預測
1.Prophet介紹
github.com/facebook/pr…
Prophet是一種基於可加性模型預測時間序列數據的程序,其中非線性趨勢可以按年度、每周和每日的季節性,以及假日效應進行擬合。它最適合於具有強烈季節效應的時間序列和有幾個季節的歷史數據。Prophet對於缺失的數據和趨勢的變化是穩健的,並且通常能夠很好地處理異常值。
2.模型介紹
Prophet模型如下:
- g(t) 表示趨勢函數,擬合非周期性變化;
- s(s)表示周期性變化,比如說每周,每年,季節等;
- h(t)表示假期變化,節假日可能是一天或者多天;
- ϵt為噪聲項,用他來表示隨機無法預測的波動,我們假設ϵt是高斯的。
趨勢中有兩個增長函數,分別是分段線性函數(linear)和非線性邏輯回歸函數(logistic)擬合增長曲線趨勢。通過從數據中選擇變化點,Prophet自動探測趨勢變化;
使用傅裡葉級數建模每年的季節分量;
使用虛變量代表過去,將來的相同節假日,屬於節假日就為1,不屬於就是0;
用戶提供的重要節假日列表
- Modeling:建立時間序列模型。分析師根據預測問題的背景選擇一個合適的模型。
- Forecast Evaluation:模型評估。根據模型對歷史數據進行仿真,在模型的參數不確定的情況下,我們可以進行多種嘗試,並根 據對應的仿真效果評估哪種模型更適合。
- Surface Problems:呈現問題。如果嘗試瞭多種參數後,模型的整體表現依然不理想,這個時候可以將誤差較大的潛在原因呈現給分析師。
- Visually Inspect Forecasts:以可視化的方式反饋整個預測結果。當問題反饋給分析師後,分析師考慮是否進一步調整和構建模型。
3.Prophet優點
- 準確,快速,擬合非常快,可以進行交互式探索
- 全自動,無需人工操作就能對混亂的數據做出合理的預測
- 可調整的預測,預測模型的參數非常容易解釋,可以用業務知識改進或調整預測
- 對缺失值和變化劇烈的時間序列和離散值能做很好有很好的魯棒性,不需要填補缺失值;
import matplotlib.pyplot as plt
df.shape
(260640, 10)
df=df.sample(n=10000)
def prophet_forecaster(data, x, y, period=100): new_df = pd.DataFrame(columns=['ds', 'y']) new_df['ds']= data[x] new_df['y'] = data[y] model = Prophet() model.fit(new_df) future_dates = model.make_future_dataframe(periods=period) forecast = model.predict(future_dates) model.plot(forecast) plt.title(f"Forecasting on the next {period} days for {y}")
prophet_forecaster(df, x='Date', y='Global_active_power', period=100)
prophet_forecaster(df, x='Date', y='Voltage', period=100)
INFO:prophet:Disabling yearly seasonality. Run prophet with yearly_seasonality=True to override this. INFO:prophet:Disabling daily seasonality. Run prophet with daily_seasonality=True to override this.
以上就是kaggle數據分析傢庭電力消耗過程詳解的詳細內容,更多關於kaggle數據分析電力消耗的資料請關註WalkonNet其它相關文章!
推薦閱讀:
- JS實現表格響應式佈局技巧
- Vue3 Hooks 模塊化抽離示例詳解
- javascript實現表單隔行變色
- 使用python把json文件轉換為csv文件
- Django利用LogEntry生成歷史操作實戰記錄