Journal/Conference: WWW 2015
Title: Describing and Understanding Neighborhood Characteristics through Online Social Media
Authors: Mohamed Kafsi, Henriette Cramer, Bart Thomee, David A. Shamma
URL: https://arxiv.org/abs/1503.03524
2 Related works
検索履歴から地域的クラスタリングを行うための手法を提案
・k-meansクラスタリングでの地理的分割:S. Ahern, M. Naaman, R. Nair, and J. Yang. Worldexplorer: visualizing aggregate data from unstructuredtext in geo-referenced collections. InProceedings ofDigital Libraries, pages 1–10. ACM Press, 2007
・検索エクリから地理的中心と分散を推定するモデル:L. Backstrom, J. Kleinberg, R. Kumar, and J. Novak.Spatial variation in search engine queries. InProceedings of WWW’08, pages 357–366. ACM, 2008.
都市の中心部を表現する用語を探索:L. Hollenstein and R. Purves. Exploring place throughuser-generated content: Using Flickr tags to describecity cores.Journal of Spatial Information Science,(1):21–48, 2010.
生成プロセスを仮定しデータから推測:A. Ahmed, L. Hong, and A. Smola. Hierarchicalgeographical modeling of user locations from socialmedia posts. InProceedings of WWW’13, 2013
3 Geographical Hierarchical model
階層モデルを用いて,地域と用語を割り当てる
大地域を指してるのか?小地域を指してるのか?
多項分布でタグが割り当てられる
3.2 Model
Nbrhood: 一番基本的なエリアの範囲
Nbrhood (総数n)のを割り当てる潜在変数z (level)
事前分布としてディリクレ分布
混合多項分布として,近隣n→タグtで生成モデルを構築
タグt, negghborhood n → 上位地域vを生成
EMアルゴリズムで学習
0. 論文
Journal/Conference: WWW 2015 Title: Describing and Understanding Neighborhood Characteristics through Online Social Media Authors: Mohamed Kafsi, Henriette Cramer, Bart Thomee, David A. Shamma URL: https://arxiv.org/abs/1503.03524
1. どんなもの?
ジオタグ付きデータからその地理情報を表現する用語を検出するための確率的階層モデル (Geographical Hierarchy Model)を提案 各地域で抽出された用語の例
2. 先行研究と比べてどこがすごい?
その地域に住む人に対してインタビューを行い,モデルによって理解できた点と理解できなかった点の違いを明らかにする
3. 技術や手法のキモはどこ?
地域情報をツリー状の階層と考え (アメリカ全土を階層の1番上、その下の階層に各州といった形),混合多項分布としてタグが生成されるモデルを考案
4. どうやって有効だと検証した?
Naive BayesやHierarchical TF-IDFを比較モデルとして,タグ分類の性能を検証
5. 議論はある?
人間に対するインタビューを通して,本モデルには人間の主観といった部分やフレーミングが十分でないことが明らかにした点 モデルによる混合分布成分から,地域ごとのルジ性をマッピング
6.次に読むべき論文は?
SIGKDD2018 Efficient similar region search with deep metric learning
メモ
ジオタグ付きデータから地理的特徴を抽出するため地理的階層モデル (GHM)を提案 またモデルから得られた地域的特徴と人間との違いを検証
1 Introduction 特徴 ・地域を具体的に記述する用語を発見するモデルの考案 ・モデルを対象とする領域の数に対して線形的であるため大規模データセットへの拡張が可能
2 Related works 検索履歴から地域的クラスタリングを行うための手法を提案 ・k-meansクラスタリングでの地理的分割:S. Ahern, M. Naaman, R. Nair, and J. Yang. Worldexplorer: visualizing aggregate data from unstructuredtext in geo-referenced collections. InProceedings ofDigital Libraries, pages 1–10. ACM Press, 2007 ・検索エクリから地理的中心と分散を推定するモデル:L. Backstrom, J. Kleinberg, R. Kumar, and J. Novak.Spatial variation in search engine queries. InProceedings of WWW’08, pages 357–366. ACM, 2008.
都市の中心部を表現する用語を探索:L. Hollenstein and R. Purves. Exploring place throughuser-generated content: Using Flickr tags to describecity cores.Journal of Spatial Information Science,(1):21–48, 2010. 生成プロセスを仮定しデータから推測:A. Ahmed, L. Hong, and A. Smola. Hierarchicalgeographical modeling of user locations from socialmedia posts. InProceedings of WWW’13, 2013
3 Geographical Hierarchical model 階層モデルを用いて,地域と用語を割り当てる 大地域を指してるのか?小地域を指してるのか? 多項分布でタグが割り当てられる
3.2 Model Nbrhood: 一番基本的なエリアの範囲 Nbrhood (総数n)のを割り当てる潜在変数z (level)
事前分布としてディリクレ分布 混合多項分布として,近隣n→タグtで生成モデルを構築 タグt, negghborhood n → 上位地域vを生成 EMアルゴリズムで学習
Flicker dataset(ジオタグ付き写真)を用いてモデルを適用 3つのレベルで構成されたGeoTree:レベル1アメリカ,レベル2 マンハッタン,サンフランシスコ,レベル3 65のLeaf
モデルから生成されたタグの結果:Table 1 New yorkの呼称にgotham Figure2:混合係数の比例で色付け→(他の地域にはないような)ユニークな地域が可視化される
それぞれの地域のタグ生成確率が他のどの地域と近いものなのかをTable2で示す 階層化していないモデル (Naive Bayes)やHierarchical TF-IDFを用いてタグを分類,性能を比較
5 その地域に住んでいる人にインタビューを行い,モデルによる結果との差異を確認する
5.2.2. - 6 人間による判断と,モデルによる判断この2つの食い違いが生じる →今後の発展として,モデルに人間の主観やフレーミングや説明性の向上をおこなう必要性について論じる