R語言數據可視化分析天貓雙十一銷售額增長率
最近和小夥伴一起探索瞭一下雙十一後鬧得沸沸揚揚的一篇文章:“淘寶2009-2018年歷年雙十一銷售額數據造假”。原文作者使用初中階段學過的拋物線,就將每年的銷售額增長趨勢擬合得非常完美。
如果大傢想學習如何畫出上述的圖像,可參見前面一篇博客:用 ggplot 重繪天貓雙十一銷售額圖
同時在知乎上,這個問題也成功上瞭當時的熱搜榜,各路大神雲集,也發表瞭很多很有意思的觀點:
如何看待有人質疑淘寶雙十一數據造假,並在4月份成功預測今年銷售額為2680億?
看瞭很多大神的文章後,自己對這個數據也進行瞭一些探索,嘗試看看能否發現一些不一樣的有趣的事情。
我們先看看原文中提到的問題,這條直線擬合得過於完美瞭,在我們通常的認知中,如果某個指標隨著年份發生變化,例如:銷售額,增長率等,我們用一條非常規律的曲線去回歸,是基本上不可能呈現這種沒有波動的情況,一般會呈現下圖這樣的結果。
但從原文的圖中我們可以看到,紅色的散點近乎完美地點綴在擬合出來的曲線上。在現實生活中出現這種情況非常罕見,且極其神奇!
乍一看原文的內容和如此精妙的擬合,我也差點相信瞭。但仔細一想,就邏輯而言,原文這種斷言是非常不嚴謹的。原作者有一個問題,那就是過於武斷和過於依靠經驗。舉個栗子,有人沒見過灰天鵝,就說所有的天鵝一定都不是灰色的,但隻要有一隻灰天鵝出現,就能推翻“天鵝一定不是灰色的”這個結論,這就是證偽。
同樣,我們也不能因為某件事情出現的情況非常少,就直接說明這件事是有問題的。例如,每一期彩票中頭獎的幸運兒,我們難道能說他們都是開瞭掛才中獎的嗎?
事實上,在現實生活中,許多經濟學原理都與發展階段或增長率掛鉤。那麼,像原文那樣完美擬合的情況會不會是一些經濟學現象所引起的呢?如果我們能夠通過理論驗證它符合某些經濟學規律,我們就有證據說明這樣擬合的非常好的銷售額曲線是因為服從這樣的規律,才出現瞭這麼巧合的現象,而不是因為數據造假。另一方面,如果我們通過驗證發現它不符合經濟學規律,那麼也能從理論的角度說明原數據存在造假的嫌疑。
那麼,我們來看看!
年份 | 銷售額 | 增長率 |
---|---|---|
2009 | 0.5 | — |
2010 | 9.36 | 1772.00 |
2011 | 52 | 455.56 |
2012 | 191 | 267.31 |
2013 | 350 | 83.25 |
2014 | 571 | 63.14 |
2015 | 912 | 59.72 |
2016 | 1207 | 32.35 |
2017 | 1682 | 39.35 |
2018 | 2135 | 26.93 |
2019 | 2684 | 25.71 |
我們繪制瞭銷售額增長率在這十年間的下降曲線:
其實從銷售額增長率的角度而言,其是符合一些經濟學規律的。具體的量化分析我們後面再進行更加深入 ,嚴謹的分析~
最後,本篇博文涉及的繪圖,後面都會一個一個寫個教程,手把手教大傢進行繪制~
用 ggplot 重繪天貓雙十一銷售額圖
ggplot 添加左右兩邊的y軸(以天貓雙十一銷量與增長率為例)
以上就是R語言數據可視化分析天貓雙十一銷售額增長率的詳細內容,更多關於R語言分析雙十一銷售額增長率的資料請關註WalkonNet其它相關文章!
推薦閱讀:
- R語言數據可視化tidyr與ggplot2多個變量分層展示舉例實現
- python中用ggplot繪制畫圖實例講解
- R語言ggplot2實現將多個照片拼接到一起
- R語言histogram(直方圖)的具體使用
- R語言繪圖樣式設置操作(符號,線條,顏色,文本屬性)