(image source: http://graphics8.nytimes.com/images/2008/04/16/us/0416-nat-subOBAMA.jpg)

這張圖是紐約時報的 Amanda Cox 所製(被部落客Nathan發現在這裡)。新聞裡可以出現決策樹分析,很酷吧。

兩個重點能力:如何分析資料以及如何視覺化結果。她用決策樹法分析以郡為單位的民主黨初選結果,並且以簡潔的圖示表現出來。

以最下面的這一個 branch 為例解釋,判斷的題目是「2004年選舉時,布希是否在此郡以大於16.5% 幅度的選票擊敗凱瑞」,結果為「是」表示選民強烈偏好共和黨,到這個分支的資料裡總共有61郡符合這個情形,其中希拉蕊在初選裡贏得48郡,多於歐巴馬的13郡,結果為「否」的情形下,歐巴馬贏得符合此條件91郡裡的56郡,多於希拉蕊的35郡。

這張圖顯現出來社會族群、教育程度、經濟條件、城鄉差距…如何影響民主黨初選的各郡開票結果。
創作者介紹

iron.snow.ball

ironsnow 發表在 痞客邦 PIXNET 留言(4) 人氣()


留言列表 (4)

發表留言
  • bwPingu
  • 太精采了!

    回台以後不常看紐約時報,多謝您這篇!!

    p.s.我是從推推王發現的。
  • 不客氣。是紐時的報導太厲害啦!

    ironsnow 於 2008/05/05 14:53 回覆

  • yichin
  • 酷 謝謝

    酷 謝謝
  • :)

    ironsnow 於 2008/05/03 09:10 回覆

  • Seeh
  • Code Complete 2是本寫程式必讀的好書.裡面有一章就是在描述magic number. 程式設計師有時會使用一些數字例如
    if (i>91) then.... else ...
    這種數字常常無助於程式閱讀,也容易造成後續維護負擔. 最好的方式是用個define.例如:
    Define 今年 97
    Define 小學入學歲數 6
    Define 小學入學年份 (今年-小學入學歲數)
    這樣程式就能改成 if (i>小學入學年份) then.... else ...

    這個決策樹就引起我的職業病問題.
    就是那些78% 87%那些magic number所謂何來.
    如果是統計結果的巧合,那就僅只能玩這一次了.
  • 因為沒有這個圖產生方法的詳細描述,以下解釋是假設這個圖是用 decision tree learning algorithm 跑出來的結果(這個圖是真的蠻像用演算法算出來的就是了,但是糟糕,我不太會用中文解釋耶,先用英文):

    1. For each branch, the decisive attribute, e.g. black populations or high school graduation rates, is chosen because it has the maximum information gain (IG) given outcomes (who won which counties.)

    2. However, the IG of numerical attributes cannot be calculated directly. Google "On the handling of continuous-valued attributes in decision tree generation." This paper introduces a method to find splitting points (discretization) for numerical attributes. With this technique, those magic numbers mentioned in your comment can be theoretically found.

    3. I think a more doubtful problem is the tree balance. As you can see in this diagram the top-rightest leaf is of depth 1, whereas the bottom leaves are of depth 7. This is a very unbalanced tree. If the learning is more constraint by the tree balance, different decision rules (thus a different tree) may be picked up by the algorithm.

    ironsnow 於 2008/05/06 03:52 回覆

  • gulgula
  • 我也想問跟Seeh一樣的問題,但你回答了之後讓我想說:
    如果不知道那些理論,如果那些經由理論導出來的數字基本上也只停留在理論,那對我們這些人來說,傑克,真是太magic了
  • 這些模型算出來的結果,並不等同對現象的正確解釋,而是梳理現象的一個分析工具而已,讓我們得以觀注到繁複資料裡人眼看不出來,但是統計上卻顯著的要素,幫助我們不只憑藉既定印象去理解事情。

    理論的發展還有一個很重要的地方,就是沒有為特定目標服務的心機。

    ironsnow 於 2008/05/10 03:36 回覆