昨天跟 ys 聊了一會兒她寫的網路分析文章, 想起之前看過的一篇論文,研究對象是使用 MSN Messenger 的人他們的社群互動行為(social network),分析2006年六月一整個月之中使用者上線及對話時間的記錄(放心,他們沒有也不能研究對話內容),總計有2億4000萬使用者,這些 使用者之間共產生了300億筆對話記錄,這應該是截至目前為止關於社群網路最大規模的研究了。

Paper source:Planetary-Scale Views on a Large Instant-Messaging Network (作者是 CMU博士班學生 Jure Leskovec 和 Microsoft Research 的大頭 Eric Horvitz)

這篇文章裡有一些有趣的數據,報乎大家知:

1. 一個對話(conversation)平均有 7 次的訊息交換(messages)。

2. 一個帳號平均有 49 個好友。

2. 有 9000萬的帳號每天上線,我的解讀是:約37.5%的帳號是屬於重度使用者。

3. 有 1億 8000萬的使用者在一個月內至少有一筆對話記錄,這表示有 25%的帳號一個月內有 login 記錄卻沒有跟任何人說話哩,下次大家看到很少上線的人上線,別忘了跟她/他打聲招呼喔。

4. 這個月裡新產生 1751萬個註冊帳號,另外它也有提到,一天約有150萬筆邀請新朋友的訊息,稍微算一下可知,大約40%的人會接受邀請。

5. 99.9% 的社交網路是相連的,這表示你和世界上其它的任何一個使用者都可以找到連通的路徑。任意兩個使用者之間的平均最短連通路徑是 6.6人。在7.8 人的距離內,我們與這世界上 90%的msn 使用者有連結。msn 朋友間的連結情形(朋友的朋友通常也是朋友)比 web-based 及其他研究所顯示出的更為密切,並且十分強健 (core size ~ 20)。

Travers 和 Milgram 在 1969年就從很少量(64 people)的資料推出 "6-degree-of-separation" 真是厲害啊。

6. 使用者年齡的分佈請看下圖,長條狀的是 msn 的使用者,實線的是全球人口分佈。IM 的使用人口以 15 ~ 30 歲為主。另外,從這一張圖我也看到性別產生的數位差距,老一輩的使用者裡,女性的比例明顯比男性要少很多,這個差距到 30 歲以下才漸漸靠近,倒是 10~14歲的小女生使用者比小男生更多,不知道是為什麼?

image source: Planetary-Scale Views on a Large Instant-Messaging Network

7. 在決定使用者之間是否產生對話上,最強的因素是他們是否講一樣的語言,接下來是他們是否有地緣關係和年齡是否相近。

8. 任意兩個使用者之間,彼此距離越遠,對話的次數(也可說是可能性)越少,但是,距離越遠的對話,時間越久。

9. 研究也發現,異性之間的對話比較頻繁也比較久。在全部的對話裡,40%是同性間的對話、50%是異性之間的對話,剩下10%的對話屬於沒有標示性別的使用者。男男間的對話是最短的,平均為4分鐘、女女間平均是4.5分鐘、男女之間的對話平均則有5分鐘。還不只是這樣喔,連互傳訊息的頻率,異性對話也以每分鐘 1.5 則領先同性間的 1.43則。

10. 年紀輕的人conversation 數目和每分鐘傳的訊息數比較多,年紀大的人 conversation 長度和每個 conversation內的訊息交換比較多。

11. 下圖左邊表示的是國與國之間對話次數的強度,以美國和西班牙為傳遞中心顯現出英語國家和西班牙語國家的群聚效應,台灣則是和中國、香港、美國有較密切的溝通。下圖右邊則是國與國之間平均對話長度的圖示,很奇妙的是以阿拉伯國家為主,這是因為阿拉伯語打成文字比較麻煩,還是阿拉伯國家的人比較長舌嗎?

image source: Planetary-Scale Views on a Large Instant-Messaging Network



以下是我自己筆記用的一些專有名詞:

k-core : a set of vertices K, where each vertex in K has at least k edges to other vertices in K.

90% effective diameter: the average number of hops for every node to reach 90% of nodes in the network.

exponent (γ): the parameter in the power law distribution.

mode :

R^2

communication graph vs. buddy graph

homophily vs. heterophily

strength of the ties : one can measure the relative size of largest connected component as a function of number of nodes removed with various strategies of removing nodes. One can also measure the number of removed edges as nodes are deleted by order of different measures of engagement.
創作者介紹

iron.snow.ball

ironsnow 發表在 痞客邦 PIXNET 留言(2) 人氣()


留言列表 (2)

發表留言
  • Ariel
  • Very interesting.....
  • haha 沒想到你喜歡這篇論文,那我再告訴你那個博士班學生是個很可愛的男生喔,你可以查一下他的網頁有照片。

    ironsnow 於 2008/07/26 02:24 回覆

  • robert
  • 真恐怖, Microsoft的人可以看得到我們全部的對話?
  • 對話內容是不行看到的,但是登入登出系統的 log 和使用者自行填寫的個人資料像是性別、年齡…等等應該是可以的。

    Install 時要打勾的同意書裡面應該有規定Microsoft能收集什麼資料,不能收集什麼資料。不知道有沒有人仔細看過?

    ironsnow 於 2008/07/26 06:09 回覆