Pop-culture CoT and Writing To Think

GitHub - deepseek-ai/DeepSeek-R1

01, QwQ などの "reasoning model" が生成している "chain-of-thought" テキストって、自己啓発ポップカルチャーでいうところの Writing To Think だよなと思う。曰く:

Practically speaking, writing forces you to take a complicated and ill-defined problem and compress it into something more manageable. This ‘compression’ is useful. Not only does it help you remember your ideas, but it helps you develop new ones.

LLM にとっての chain of thought をポップカルチャー的に解釈するなら、数十、数百GB ある混沌とした記憶の中から眼の前の問題に必要な情報を少しずつ materialize していくプロセスだといえる。眼の前にあるものには "attention" を向けることができるので - テクニカル ... Attention(K,Q,V) ... にも、ポップカルチャー的 ... 意識を向ける所作 ... にも。

そうやって必要な情報を積み上げ、意識を向け、文章の舵をとることで、「正しい」答えにたどりつける。LLM の reasoning はそんなものだと解釈できる。(ポップカルチャー的には・・・しつこいので以下この言い訳は省略。)


むかし自分がよく長いブログを書いていた頃、文章を通じて考えが整理される感覚があった。今の自分にその感覚はない。整理された考えもない。意見もない。惰性で日々を生きているように感じる。それがすごく悪いこととは思わないが、もうちょっと頭を使って考えを整理したほうがいい気もしている。ボケそうなので。

そうした「考えるために書く」所作を取り戻したいとぼんやり願いながら何年も経ってしまった。けれどあるとき Reasoning LLM の吐き出す長々としたテキストを見て、そこからヒトとして学べることはないのかと思うようになった。

テキストは、ただ長ければいいわけではないらしい。DeepSeek R1 の technical report では、長さを促さなくとも数学の問題(など)を RL で繰り返し解かせているうちに段々と長いテキストを吐くようになったという。つまり書いて考えを整理するためには何らかの reward function が必要といえる。

ブログを書いていた頃は、インターネットで誰かに読まれる緊張感から校正に時間をかけていた。校正では文章を削ることもあったが、書き足すことのほうが多かった。

この公の視線は reward としてある程度機能していたが、過剰に検閲をする傾向やウケ狙いに迎合する向きがあり理想的とは言えない。一方で、誰にも読まれない個人的なノートにも問題がある: 論理構造のない箇条書きに終始したりムダに愚痴っぽくなったりで、雑用のメモならともかく考えを整理する装置としては reward の弱さからくる迷走感が否めない。

テキストそのものに目をやると、LLM が出力する reasoning/thinking はモノローグ的で、読みにくい。Reasoning LLM はは、そのモノローグ部分を整理した説明を結論に添えユーザに提示する。これはアイデアをアウトラインしてから原稿を書くプロセスと似ている。

人間(というと主語大きすぎで、自分)はというと、この文章にアウトラインは存在せず、ただリニアに書いている。結果として文章の構成はイマイチである。気がする。


さて、すっかりボケてしまった自分が書くこと通じて考える力を取り戻すために何ができるか、LLM が示唆することはなんだろう。

Reasoning 以前に、「テキストを生成する」というベースの能力が足りていない感がある。ソーシャルメディアなどで回覧されてくるブログなどを見ると、中身の整合性はさておきやたら長い文章を量産している「ブロガー」が一定数いて、こういう人たちはテキスト生成能力という点で優れているなと思う。context window が広い pre-trained model みたいな。

自分もどうでもいい長い文章を日頃から書き散らす必要があるのかもしれない。

・・・と言いたいところだが、LLM に倣うならこの解釈に理はない。モデルのやつらはいくらテキストを生成しても素行が良くなったりはしないわけだから。むしろモデルとしての自分は training が足りていない気もする。つまりこの頃、あまり文章を読んでいない。読むとしてもニュース記事か技術文書か論文くらいで、意見形成を促すような文章は読んでいない。一時期までは NYT の opinion section とかをたまに読んでいたが、大統領選以降はキナクサ過ぎて読むのをやめてしまった。読みたいとも思わない。

NYT に限らず、ブログなどの「意見」に込められた強い感情に晒されると心が疲弊する。じぶんは段々と精神衛生を重視するようになってきており、その結果としてむき出しの感情を突きつけてくるメディアとは距離を置くようになってしまった。同じ理由でソーシャルメディアも見ていない。

人生の総体としてこの判断が悪いとは思わないが、一方で意見生成の助けなっていないもの確かである。自分の意見形成を train するにあたって、まずは何らかの token を脳に流し込む必要はあるんじゃないか。最近の LLM scaling を巡る談話によれば、比較的小さいデータも高品質なら有効な training になるという話なので、自分にも意見の形成に向けて我が身の価値観とあった「高品質」の意見を接種するのがいいのかもしれない。

それ echo chamber と何が違うの? という批判はありうるけれど、自分は商用 LLM じゃない一個人だから別に意見が biased でもいいんですよ。


もともとは「自分も文章を書くにあたり何らかの reward modeling が必要なのではないか」と主張するつもりで書き出した文章だったが、思わぬところに着地してしまった。