2014年1月31日 星期五

用巨量資料看春運:百度遷徙


每年春運一直是對岸逢年過節的熱門話題,而今年1月26日對岸百度首次以適地性服務 (Location Based Services簡稱LBS)技術,取得網民的移動資料,並整合百度地圖,以「百度遷徙」的主題,報導整個春運的狀況。

而本次也是對岸首次運用巨量資料(Big data)的概念來報導春運的運輸全貌,藉此我們也可以看到大數據在整個運輸政策、文化交流上,都有重要的發展意義。


首先我們可以從百度遷徙看到幾個功能「月份」、「時間」、「地點」、「遷入熱市」、「遷出熱市」、「最熱線路」,是整個查詢網站的主要功能。月份可以查詢1月16日起到整個春節時間,地點則可用文字搜尋城市,例如搜尋”上海”,即可了解上海的熱門遷入與遷出城市。

上面每個點代表一個城市,金黃色的線則表示動向,而右邊有1~10名的排序,方便我們觀察遷入與遷出的比例。以上海來說,1月29日除夕前一天早上10點,遷入的熱門省份為「江蘇」、「浙江」、「安徽」、「廣東」、「山東」、「江西」、「福建」、「河北」、「四川」、「湖北」。而遷出的熱門省份,也就是從上海移動到的省份為「江蘇」、「浙江」、「安徽」、「江西」、「湖北」、「廣東」、「山東」、「河南」、「臺灣」、「福建」。從上面的排名可以發現有趣的現象,遷入與遷出的省份前三名都不變,後面開始就有不一樣的事情發生,像是遷出有了臺灣,於是我們可以再點臺灣去看熱門的遷入遷出省份。


可從上圖發現,從各個省份要回家排名前六名的有「上海」、「香港」、「江蘇」、「北京」、「福建」、「江西」,這數據是否可以顯示「臺灣」與「上海」交流比「臺灣」與「北京」更活絡,從1月29日除夕前一天早上10點來講,這背後的意涵大家就可以自然衍生了。


另外一個角度是從台灣遷入過去的省份,如上圖排名前六包含「上海」、「香港」、「江蘇」、「北京」、「福建」、「江西」,從這裡是否也能觀察到旅遊業這塊的市場呢?

接著我們回到最首頁,可以看「遷入熱市」、「遷出熱市」、「最熱線路」,也可以觀察到許多某個時間點,對岸的人流動向。


像是遷入排名前三名為「北京」、「重慶」、「武漢」。


遷出排名前三名為「北京」、「上海」、「廣州」。


最熱門的線路為「成都到北京」、「北京到成都」、「上海到滁洲」,從上圖也可以觀察到對岸省份交流比較活絡的是「北京」與「成都」,遷入成都1,000人當中有249人來自北京,從成都遷出的1,000人,有329人來自北京。


還有幾個是對岸新聞報導上的一些資訊,供大家參考:
  • 1月9日鐵路訂票「12306網站」和手機端的總訪問量達84億次,相當於每個中國人都通過電腦或手機訪問了該網站6次多。
  • 1400萬人次使用支付寶搶票。
  • 北京流出的人口就集中在保定、邯鄲、石家莊、張家口、天津。
  • 截止目前為止中國手機網民達5億人口。

最後簡單做個結論,筆者從這個平台看到幾件事情:
  • 通常20%已經是大家都知道的事情,透過巨量資料我們反而可觀察到80%人流動向,也就是長尾理論的概念。
  • 兩岸旅遊業可透過這張圖了解市場,像是較具發展潛力的旅遊省份。
  • 兩岸運輸業透過這張圖了解運輸動脈,像是台灣過年間較愛飛的省份。
  • 可觀察到兩岸交流較為熱絡的城市,甚至是對岸在省份間較為熱絡的城市。
  • 商人也可以觀察哪個城市交流最為活絡。
  • 用大數據結合LBS的服務來看觀察運輸全貌。
  • 巨量資料帶來新聞傳播領域的一種新的概念,像是資料新聞學,透過資料來強化新聞報導內容。
當然整個平台還是有些資料視覺化設計上的小缺點,這邊筆者也把它記錄下來,以便日後碰到相關的案子可以查詢。

一些想法與建議:
  • 沒辦法查詢一天或某一個時段(如:下午六點到八點)的遷入與遷出比例。
  • 無法以時間序列的概念觀察到每個省份的流量。
  • 本平台PC採用Flash製作,瀏覽速度不夠流暢。
  • 本平台行動載具版本採靜態的方式呈現,無法做細部查詢





參考資料:
  1. 大數據裏看春運:實時地圖上的春運全景
  2. 百度遷徙顯示北京榆林張家口來包旅客多
  3. 百度遷徙地圖看大數據 網友大讚接地氣!
  4. 百度遷徙:透過大數據看春運