From 12b9fa7a01700d14de0eafbcea828bc0fadf4593 Mon Sep 17 00:00:00 2001 From: yuji96 Date: Mon, 18 Mar 2024 20:17:54 +0900 Subject: [PATCH] fix typo --- _posts/blog/2024-03-17-NLP2024.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/_posts/blog/2024-03-17-NLP2024.md b/_posts/blog/2024-03-17-NLP2024.md index de2c82fd37b..52fb841b6f6 100644 --- a/_posts/blog/2024-03-17-NLP2024.md +++ b/_posts/blog/2024-03-17-NLP2024.md @@ -110,7 +110,7 @@ ICA でカテゴリが見れるのは単純に現象として面白いが、ち ICA の続編。ICA は Independent Component Analysis (独立成分分析) と言っておきながら、実データでは変換後の成分同士が独立にならないことがある。 このとき、独立にならず高次モーメントで依存している軸を比較すると、音楽と楽器のように意味的にも依存していた。 -成分を独立に分離できない原因はまだ理論的に理解しきれていないが、そもそもデータ間に依存関係があればどう学習しても分離できないという当たり前の現象な気がしてきている。最初は、ICA の学習がうまくいってないからと思っていたが、この解釈は多分誤り。成分が独立になるように学習しているそうならない点だけ見れば ICA のバグなのだが、そこに実データらしさが顕れるというのが大変興味深い。 +成分を独立に分離できない原因はまだ理論的に理解しきれていないが、そもそもデータ間に依存関係があればどう学習しても分離できないという当たり前の現象な気がしてきている。最初は、ICA の学習がうまくいってないからと思っていたが、この解釈は多分誤り。成分が独立になるように学習しているのにそうならない点だけ見れば ICA のバグなのだが、そこに実データらしさが顕れるというのが大変興味深い。 ちなみに、音楽と楽器って似ているのだろうか。音楽は概念で楽器は実体なので全く違うようにも思える。ICA が軸をマージしなかった理由はここにあったりするのだろうか。 @@ -181,7 +181,7 @@ ICA の続編。ICA は Independent Component Analysis (独立成分分析) と `Input: Label: Positive/Negative` という few-shots prompt を与えた後に `Input: Label: ` を入力して、直後に出力されるトークン `Positive/Negative` の予測確率から2値分類をするという in-context learning を考える。few-shots で例示するラベルを文脈に関係ない不適切なラベル、すなわち意味を持たないただの記号として与えても、LLM は入力文 `` に対応するラベルを返せるのか。返せるなら LLM は few-shots からフォーマットを学んでいることになる。実際、学んでいた。 -不適切なラベルを zero-shots 時に最も予測確率が低かっったトークンと定義していた。これは何か起きない限り同じ文脈では絶対に出現しないトークンである。でも few-shots を与えるとそのトークンの順位がぐんぐん上昇する。何かが起きている。本来のトークンの意味が改変されているので結構気持ち悪い現象。LM Head の出力埋め込みがチューニングされているように感じる。予稿の理解が深まるにつれて「ラベル空間の学習」という表現がしっくりくるようになった。 +不適切なラベルを zero-shots 時に最も予測確率が低かったトークンと定義していた。これは何か起きない限り同じ文脈では絶対に出現しないトークンである。でも few-shots を与えるとそのトークンの順位がぐんぐん上昇する。何かが起きている。本来のトークンの意味が改変されているので結構気持ち悪い現象。LM Head の出力埋め込みがチューニングされているように感じる。予稿の理解が深まるにつれて「ラベル空間の学習」という表現がしっくりくるようになった。 パラメータをチューニングしていないのにこんな変化が起きるのは不思議。突き詰めていくと [induction head](https://transformer-circuits.pub/2021/framework/index.html) が関連してくるのだと思う。でも induction head は似た文脈をコピーするようなことくらいしかできなそうだから、やっぱり与えられた文とラベルを対応付ける能力は事前学習で獲得してるのかな。なんか LLM が将来自分がどう使われるのか分かったような挙動するの気持ち悪いな。