Open karino2 opened 6 years ago
当初は本家で買おうと思ったが、epubかADEと言われて、買う気を失う。 そこでKindleにする。
まずはサンプル読んでみて、記号とか問題無さそうなら買う方向で。
なんかあまりにも初心者向けすぎて、ちょっと読みきれない。
という事でサンプル版での評価はそうそうに諦めて、普通に購入した。
8章の確率論から読んで見る事にする。
トポロジーのあたりとかが必要になったら、その辺は戻って見直す、という方向で。
とりえず冒頭はだるいので適当に読み流し。 この本のこの手の枕は、かえって理解を妨げる気がする。 まぁ無視すればよろし。
で、8.1から。
割と普通の母集団、サンプル、事象を元にした確率論の定式化ではじまる。 で、普通にランダム変数が可測関数として定義される。
あれ?もっと分布関数とかを元にした、抽象的な話を期待してたのだが…
まぁまだ最初だ。もう少し読み進めてみよう。
lawって最近よく見るが日本語しらないな。まぁいい。 ランダム変数の値域のボレル集合族の上で定義される、PとX^-1の合成だと。これってボレル集合族の元が起こる確率だよな。
次に、事象の独立の定義があり、ランダム変数の独立の定義がある。
昔はすぐごっちゃになってたが、今見るとこの辺の定義はおもちゃみたいだな。 2-groundedでnondecreasingでどーたらこーたらな分布関数、とかが裏にあるんだよな。今なら分かる。
全て1次元の確率空間の直積で定義されるので、marginalとかの抽象的な条件も不要。で、独立は個々の積と等しくなる事、と。ちょー簡単。
前読んだ本で実解析レベルを上げすぎたか…
ふんふん、と読んでいくと、定理8.1.2の次に、set of eventsの独立が、indictor functionで定義されている。
もともと2つのイベントの独立は、前のページでAかつBのPがPAとPBの積、という風に定義されている。
だから別に任意の組み合わせで独立、という定義で良い気はするが、indicator functionがjointlyにindependentだ、という方が一言で定義出来て簡潔という事か。
両者が等しいかは自明では無いが、まぁ等しいだろうな。
なんか期待してたより一段簡単だなぁ、という印象。 9章がlimit theoremの収束判定周辺の話っぽいので、8章は下準備、という事なのかもしれないが。
一通りの定義が、分かりやすく短くまとまってるので、手元に置いておいて参照するのには良さそう。 なんか行間も短いのだよな。 そのくせ幅は狭い…
もう少し読み進めて、感想がどう変わるか見てみよう。
無限の点列的な話をしようとしているように見える。
For expampleの例が長くてよく分からかい。 まず、オメガは0〜9の数字が並んだ物だよな。
でxはそれを0.1、 0.01と掛けて足し合わせた物だ。
さて、Akからよく分からない。 まず、任意の正の整数の集合は、 2で割れるが4で割れない集合、4で割れるが8で割れない集合、…みたいな物のunionで表せる、と言ってる。よくわからん。
例えばA3は何か。4で割れて8で割れない整数全体だ。 正だけで考えると
$${4, 12, 20, ...}$$
という集合か。 次にA1はなんだ?奇数だな。
$${1, 3, 5, ...}$$
ではA2は?2で割れて4で割れない。
$${2, 6, 10, 14, 18, ...}$$
このunionで任意の自然数の集合が表せる? そんな事は無いよな。
例えば3, 7という集合は、この方法では表せない。
任意の集合じゃなくて、全自然の集合か。それは表せそうな気がするな。
あー、そうか、Akは重複が無いのね。なるほど。
n(k, i)は何か。nは関数という事か。 で、iはAkのi番目の要素、という事か。
ykの定義のjはxのjから来ているのかな。 簡単の為、y1を考えると、A1が奇数、
$${1, 3, 5, ...}$$
だったのだから、y1は
$$j_1/10+j_3/100+j_5/1000+...$$
という数だな。y2はA2が
$${2, 6, 10, 14, 18, ...}$$
だったのだから、
$$j_2/10+j6/100+j{10}/1000+...$$
か。
xを決めればjが決まるので、yは決まるな。
逆にyを決めればjの点列は一意に決まるので、この2つは一対一に対応しているかな?
まったく同じyを生成する2つのxは存在出来るか? yが同じ為には全jが同じじゃないと駄目だから多分ムリだな。
Tというのはxからyの列への射影だな。 Tのインバースは$$[0, 1]$$の上への射影なので、それの測度が考えられる
yのボレル集合族の元とかその逆元とか全然想像出来ないが、まぁ可測関数なんだろう、たぶん。
PnとかVnを考えていく。 もともとは、xはオメガの直積からの射影だった訳だよな。
これを逆に、0,1の範囲でxをえいっと決めて、これのxによる逆像が存在してれば、そのn番目をとるのが、 Vnのインバースだよな。
つまりランダム変数の逆写像的な物。
PnがVnのインバースとラムダで表現出来る、という事は、感覚的にはVnがだいたい全部覆うような写像になってれば良さそう。
そのあとのWは、直積した結果全体の話となってる。 で、Tnの具体的な形は出てないので、これはこういう形で表現出来るようなTが存在する、という話なのだろうな。
つまり実数値から可算個の点列を抜き出して、その点列を一意に表すような実数値を作って、そいつがランダム変数でやってきたかのようにつじつまを合わせられる、と。
自明では無いが、ありそうな話ではある。
Rの定義と、それを無限に拡張しても存在する、という話。 真面目な証明はゴツいが、軽く眺めると、まぁなりそうかな、という気がして来たので、飲み込む事にして先に進もう。
なんか以前もここ、飲み込んで先に進んだ気がするな。
これで可算個の積についての測度に拡張出来た訳だ。
8.1はちょろいと思ったが、8.2はやはりそんなの気のせいだった、と教えてくれた。むずい…
ただ、周辺の話の知識がいろいろあるので、昔この辺やった時よりは、大分何の話をしているかは理解出来る。
なんか具体例がかなり難しい割にさらっと書かれているので、ぱっと見た印象よりは遥かに難しい。 抜けがある訳では無いが、追うのはかなりきつい。
ただ食らいつく事は出来そうなので、もうちょっと頑張って見よう。
ここらへんから極限定理の収束の話になりそう。
almost surelyは確率1で起こる事象。
converge in probabilityは任意のイプシロンに対して、YnとYの差分がイプシロン以上となる確率がゼロになるNが選べる、という感じか。
strong law of large numberはa.s.に収束。
weak lawはconverge in probabilityで収束する所が違う。
さて、lim supが久しぶりに出てきたので定義を思い出す。 こういう時は以前読んだ教科書から。
ルベーグ積分から確率論、p114あたり
あんまり説明無いが、頑張って考えてたら思い出してきた。
Akという事象列に対し、あるNで成り立ってても、そこより上とカツをとるので残らない。 だから無限の果てでも起こり続けるAkだけを取ってる訳だな。
なおlim infは外側がunionなので、全部のカツか、そのうち先頭をいくつか抜いた物だけが入っている。
ふむ、イメージは思い出した。
いい機会なので、ついでに5.4くらいまでを軽く読み直す。 昔は飛ばした所や理解出来なかった事も、今だと理解出来るな。 成長を実感してやる気を出すなどする。
ボレル=カンテリの補題とかもこれだけ見かけると見慣れてくるね。
その後は大数の強法則の証明が続くが、あらすじだけ眺めて深入りはしない。
他の本と見比べると読みやすいね。
8.4のErgodic Theoremは飛ばす。
8章は下準備という事でこんなものでいいだろう。
もともと以前挫折したThe Methods of Distances in the Theory of Probability and Statisticsが、この辺の話から始まってたのが本書を読むモチベーションの一つなので、頑張って読んで行きたい。
この前読んてたProbabilistic Metric Spacesがまさにdistribution functionで定式化されていたので、この辺の話は今や見慣れたものである。 むしろこの辺やった事無いのにあの本やったからあんな大変だったのね…
3章の内容が結構参照されてるので、3章も読んでも良いかもしれない。
簡単そうなので、ちょっとこの証明を真面目に追ってみる。
Xの分布関数がF、とはどういう意味だろう。
となっている、という事だよな。 では$$X_F$$の定義の時、右辺を計算してみよう。
記号がいろいろややこしいが、とりあえず右辺のxはy以下と置き直す。
Xがy以下となる確率を考える。 それはy以下となるようなtの測度となるので、y以下となるようなtを考えれば良い。
とりあえず細かい存在とかはおいといて雑に、y以下の上限をyと置き直して、X=yとなるtが存在すると考えよう。 このtではF(y)>=tとなる最小のyとなってるから、雑にはF(y)=t。
Pについてちゃんと書いてないが、p98の3.2.6で定義されてるmeasureなのかな。 いわゆるLebesgue stiltjes measureという奴か。
tのmeasureの場合、(a, b]に対してb-aが定義か。
すると、tがF(y)以下の範囲のtのメジャーは、F(y) - 0だからF(y)となるな。
これはだいたい証明の所の式か。
厳密には段々になってる場合を考えて、上から抑える最小の元とかを考えて行けば証明出来そう。
これで、Fが与えられた時、以下で定義されるX
は、その分布関数がFとなってる事は示せた。 ランダム変数になってるかは可測関数かを示さないと駄目だが、まぁなってるだろう。
定理9.1.3は良く出てくるが証明ははじめて見たし短いので、少し考えてみる。
まずX+Yのlawとは、元になる確率空間を仮定すると、X+Yの値域上のボレル集合族の元をBとした時、
となるような、X+Yの値域上の測度。
あー、教科書ではこのBをAと呼んでるのか。まぁいい。
X+YがBの元である、という場合、YはB-Xの元だ、と言っている。
ちょっと集合的に書いてみよう。
Bは実数上のボレル集合族の元なので、開集合を思っておけばいいだろう。
こんな感じか。 B-Xがボレル集合族の元かは自明じゃないが、まぁなってそう。
indicator functionがこの証明のように書けるのは良い。
これから結論に辿り着くのはちょっと辛いな。
直積測度の存在証明の所に似たような話があったなぁ、と前述のルベーグ積分の教科書の3.1あたりを見直す。
唐突にrebuttalとかいう用事が発生して中断してた。まずは思い出そう。
さて、定理9.1.3。X+Yのlawとは値域上のボレル集合族の元に対して、その逆像の測度だ。
で、右辺のコンボリューションはボレル集合族の元Aに対して定義されているので、対象は揃ってる。
さて、Aをある開集合としてみよう。 で、Yだけに着目して考えると、YはA-Xの元、と考えられる、という話をしている。
するとA-Xの逆像のPによる測度がX+YのlawによるAの測度だな。
さて、Rkは、簡単の為に一次元を考える。 A-Xの逆像を考える時は、XはX+YがAの範囲内となりうる全ての範囲を動く。これはRの全範囲。
うーむ、独立と直積測度を使わないとだめそうなのでこの辺の復習が要るな。 少しやってみるか。
4.4.3のあたりが関係ありそうな議論だ。 単調族のあたりか。
という事で、この周辺を真面目にやろう。 まずは昔流し読みした以下の本の3章と合わせ進める。
昔は結果だけ眺めたが、やはりこの辺の証明を追わないと駄目そう。辛たん…
この辺はConvolutionとかと繋がりありそうだな。真面目に読んで行こう。
命題3.2から、xによる切り口集合のyの測度による測度は、xの関数として可測らしい。
直積測度の定義は3.8だ。このように切り口集合の積分で定義される。
これを踏まえて元の本のconvolutionを見てみよう。
これのGのxによる切り口集合をA-xと考えれば、convolutionには一致しそうだな。
さて、独立とは、XとYの直積のlawがこの測度の直積となっている、というのが定義だ。
で、XとYの直積のlawとX+Yのlawの関係を考えれば良さそうか?
X+YがAに所属する、とは、XとYの直積がある種の集合に属すという意味と考えられる。 でもこの測度が一致するかは良く分からないな。
X+Yのlawをmと置こう。 この時、m(A)はAのX+Yによる逆像のP測度による値。
これがmuとnuの直積測度に一致してればいいのだが。
直積測度はX, Yの逆像をPで測った物だよな。 うーむ、これはあれか。本質的にはbinary operationとかの生成する測度空間の話か。
いや、待てよ?これは特定の範囲での直積測度と、その解析接続というか拡張の話だよな。
すくなくとも解析接続では、直積測度の一意性は定理3.4で保証されているので、このサブセットでの測度は一致するはずか。
お、分かった気がする。
9.1はその後、densityの話となる。確率密度という奴か。
xでAの範囲を積分するとP(A)となる。
9.1.5は興味ある所だが、証明が練習問題に回されてる!えー?それは無いんじゃない?
この本、分かりやすくは無いな。記述が簡潔過ぎて、行間を埋めるのがそれなりに知ってる事でもきつい。全く知らない事はお手上げに近い。
ただ、他の本をいろいろ調べながらこの本の主張を追っていく、という使い方は出来て、その扱ってるトピックは「まさにこれだ!」という内容になってる。
うーん、この本が存在している事を幸運と感謝すべきか、この本と同じ内容を扱ってる、もっと丁寧な本が無い不運を嘆くべきなのか、微妙だなぁ。
9章はまさに自分が知りたかった内容っぽいので、楽しく読めてはいる。
この辺の話はある程度は前の本でやったはずなのだが、冒頭の説明はきつい…
定理9.2.2のKy Fan距離のあたりで、dがαで上から抑え込める、というあたりが良く分からない。
いや抑え込めるんじゃなくて、抑え込める確率は1-α以上、と言ってるのか。 ああ、そうか。だからαは三角不等式を満たすのか。
なんかjordan decompositionとかいうのが出てくるので5.6を見てみると、signed measureとかいう話が。
軽く読んでみると知らない事なので真面目に勉強する必要はありそうだが、とりあえず今はそのまま進んで見る。
で、lawの収束を符号付き測度で簡単に定義しようとすると厳しすぎるので、任意の有界で連続な実関数の積分値がある測度の積分値に収束するなら、その測度を極限と定義するらしい。
気分的には任意のランダム変数の期待値が収束するような測度は全て同一視するという事だな。
さて、この定義では極限は一つとは限らない気がするが、補題9.3.2がmetric spaceではそれが一つと保証している。
一応簡単にメモしておこう。
これを元にXのlawの収束の話がある。XのlawはPとXのインバースの合成結果。
さて、lawが収束してもXが収束するかは分からないが、XnがXに確率収束するならlawが収束する、は言える模様。(9.3.5)
逆については言えないが、あるlawが収束する時、確率収束する確率変数列でlawがそれな奴がある、とは言えるらしい。まぁ言えそうだな。
ここから突然lawをPnで表し始める事があってややこしいので注意が要る(9.3.6とか)
相当ややこしい話になってるが、lawとか分布関数は相当やりこんだので、議論は追える。
そしてこの辺から中心極限定理の周辺の議論をしていくのは凄くstraightforwardなので、やる気は出る。
この辺の話題を知りたかった!という内容なので、記述は飛ばしまくりでもやはり読む価値はある。
このあとは特性関数とその一意性の話をやって中心極限定理に進む訳だが、GAN的な応用としてはむしろこの辺の理解の方が重要だよな。
そういう点ではこの本の一番読みたかった所は読み終わりつつある気がする。 理解は浅いが、時間もかかってないので、悪くない費用対効果。必要になったらまた戻ってこよう。
昔は確率論というと特性関数と中心極限定理という感じだったが、生成モデルではあんま出番無いよねぇ。
冒頭でRadon-Nikodym微分というのが出てくる。前にもこれ出てきたねぇ。よく知らないが、とりあえずもうちょっと必要になるまで粘ろう。
Pはlawと言っている。確率測度じゃないのに同じ文字を使ってる? densityを積分したもの、となっていて、ランダム変数が出てない。
もともとlawの定義は確率測度とXのインバースの合成射だったが(8.1)、 densityの定義は積分すると何かのlawになるものだった(p284)ので、定義の順番が変わっただけで、同じ物を指してはいる。
なお、ラムダという測度が出ているが、これはなんだろう? fがラムダで可測と言っているが、、、
わからん。さっき後回しと言ったばっかだが、Radon-Nikodym微分を読もう。
特性関数は$$f_P$$と書かれていて、densityはfなのでややこしい。注意。
まずp174に、absolutely continuous with respect to μ、という言葉の定義が書かれている。
同じ可測空間X, S上で、2つの測度、muとnuがあった時、mu(A)がゼロならnu(A)がゼロ、が言える事らしい。
一応式で書いておこう。
ニューがabsolutely continuous with respect to μとは、
という事。
なお、singularは別のゼロ集合が存在する、みたいな意味らしい。
で、ここでmuとfが所与の時にnuを以下のように定めると、
Dudleyの、Real Analysis and Probability (Cambridge Studies in Advanced Mathematics)を読んでみる。
実解析ベースの確率論の入門書らしい。 最初からこれやれば良かったんじゃね?という気はするが、果たして?