Antonio ZENG
Forum Replies Created
-
日本科技体系真正的精英力量也是在美国的,和美国的最顶尖的那个体系缠结在一起,我就是在这个美日体系的边缘的新人,而日本真正放在美国开发的大杀器还没有拿出来呢,到时候应该是以美国放给日本的名义放回本土。
-
感谢andy和其他人在这个专栏里对于AI的深度讨论,你正在讨论的课题或主题正是我和我们早已开始追寻的,比如:
1.AlphaGo的“神之一手”与“跳脱人类常规推理范式”的“新推理范式建构能力”
2.然而同时还有严重制约着AlphaZero架构的“齐次性组合博弈战场构建的困难度”(也就是说之后的Alphafold\AlphaMatrix\AlphaEnvolve都严重依赖于“将问题转化为某种棋类游戏”)
3.我回复的你的这个帖子中你所探讨的“智能体的多样性”,我们称之为“多范式智能体 i.e. multi-paradigm agent. 以日本为例,目前日本全社会面(大型私营部门、中小微私营部门、初创公司孵化生态甚至个人研究)已经出现大概200种以上的智能范式,其中许多甚至基于截然不同的计算模型,例如非线性光计算、拓扑量子计算、”以生物大分子及其信号转导的精细度“模拟自然计算网络的仿生网络计算。最极端的一种,也就是我在之前的帖子中所说的rheumorphic computation(warning:确实不是neuromorphic computation,而且这个术语也不是我们自己命名的,这个术语来自兰德公司对我们的计划的调研) 是”无时无刻都在进行智能范式变异“的,”演化与变异即计算“的。
只要不涉及泄露我们的各种clearance的机密,我都会在这个话题和”狂想曲“那个话题下与你们探讨。
-
接着就是一些中文输入法的恶心之处,一些重要的词汇不作为首要联想词突出
我举一个路德比较喜欢引用的重要概念:
脱亚入欧
微软的输入法根本无法根据拼音”tuo’ya’ru’ou”联想到这个关键概念,打出来的词是TM的”托亚入欧“,一想到这个胡言乱语一样的词儿可能会是什么意思我就来气,大家可以用中文输入法试验一下有没有故意不联想关键或敏感政治概念的。 大家可以想办法搞一个脚本来自动地为中文输入法的这些垃圾小动作取证,并构建数据集。
-
#训练资源
我认为路德社专有AI模型还应当包括一些训练数据集,这个数据集包含一些中共认知战的关键样本,我不想捏着鼻子去X取材,但我认为有这么两个非常好地反映中共认知战的精细部分的地方:
1.中文维基百科的涉及政治和政治哲学的词条
2.中文输入法中的联想词排序(我估计这个大家很难意识到)
我拿出以下两类材料供大家去做提示词工程实验:
(警告:一旦你们看明白其中的叙事诡计会被狠狠恶心到)
数据所属超集:中文维基百科涉政词条
数据名称:中文维基百科关于Antifa的词条
数据采样:<b style=”background-color: var(–bb-content-background-color); font-family: inherit; font-size: inherit; color: var(–bb-body-text-color);”>安提法(英语:Antifa,/ænˈtiːfə, ˈæntiˌfɑː/)<sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[1]</sup><sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[2]</sup>是美国一场高度去中心化的左派反法西斯主义、反种族主义政治运动,由一系列无领袖抵抗团体或人士推动。与政策改革相比,他们更偏好以暴力及非暴力的直接行动达到目标<sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[3]</sup><sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[4]</sup><sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[5]</sup>。很多安提法行动不具暴力成分,比如派发传单、张贴海报、发表演说、参与示威、因反种族主义和反白人民族主义的共同立场组成一个社群<sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[6]</sup><sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[7]</sup><sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[8]</sup>。他们会以一系列示威策略打击新纳粹主义、白人优越主义等极右派极端主义支持者<sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[4]</sup>。与其他左派反对运动不同的是,他们可能会以网络行动、人肉搜索、骚扰、肢体暴力、刑事毁坏等手段去对抗他们所认定的极右派人士,乃至执法者<sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[9]</sup>。
运动参与者的政治立场多倾向于反权威主义、反资本主义、反国家主义,他们一般支持各类左派意识形态,像是无政府主义、共产主义、马克思主义、社会民主主义、社会主义<sup>[10]</sup>,包括环保主义者、LGBT和原住民权利拥护者<sup>[8]</sup>在内的一些其他美国左派人士同样支持安提法运动<sup>[11]</sup><sup>[12]</sup>。“antifa”这个名称和作为标志的两面旗征(分别代表共产主义和无政府主义)都源自于德国的安提法运动<sup>[13]</sup>。达特茅斯学院的史学家马克·布雷在研究安提法的专著《安提法:反法西斯主义手册》中认为反种族主义行动是当代美国安提法运动的前身<sup>[14]</sup><sup>[15]</sup>
安提法运动支持和反对者各有之。美国一些左派人士批评安提法的直接行动具暴力成分、没有实际效果,使得右派阵营更坚定<sup>[16]</sup>。右派人士则把安提法认定为国内恐怖组织,或以其统称<sup>[17]</sup>所有左派或自由派人士举办的示威行动<sup>[18]</sup>。一些学者认为安提法是对于极右派崛起的正当回应<sup>[19]</sup>,并表示像泼奶昔般的安提法暴力行为跟右派暴力本质上存有不同<sup>[5]</sup>。学者一般倾向于认为安提法跟白人优越主义的本质不同<sup>[4]</sup><sup>[20]</sup><sup>[21]</sup>。
社交媒体上有不少恶作剧是为了抹黑安提法群体而散播的。很多另类右派和4chan使用者会在Twitter上假装成安提法支持者,以进行假旗攻击<sup>[22]</sup><sup>[23]</sup><sup>[24]</sup>。右派媒体有时会把该些恶作剧有意或无意地采信为真,然后进行报导<sup>[22]</sup><sup>[25]</sup><sup>[26]</sup>。 特朗普政府在乔治·弗洛伊德之死引发的示威活动爆发期间,曾表示它们是由安提法一手策划的;不过根据对被捕者的分析,安提法与示威活动之间并没有任何关联<sup>[27]</sup>。唐纳德·特朗普和威廉·巴尔一再呼吁将安提法认定为恐怖组织<sup>[28]</sup>。学者、法律专家等人士认为,此举超越了给予总统的权力,并违反《美国宪法第一修正案》<sup>[29]</sup><sup>[30]</sup><sup>[31]</sup>。数项分析研究显示,安提法并不是美国的重大安全隐患,极右极端主义和白人优越主义反而才是美国需要面对的头号风险<sup>[21]</sup><sup>[32]</sup><sup>[33]</sup>。
我加粗的部分都看到了吧,一个看似中立的维基百科词条是怎么拉偏架的,就问恶不恶心,作为一个样本够不够典型,够不够作为重要训练数据的资格?
-
唉,你这讨论区设计的不行啊,我补了十多条的结果没办法edit上来
计算思维就是:
1.有限建筑块;有限建筑块的有限组合构成的有限构件。这里的建筑块、构件可以是任何尺度,从一个可转义字符到一个庞大的子程序
2.建筑块的组合有且只有三种方式——顺序、分支、循环,这和编程语言只需这三个结构即可图灵完备一个道理
3.有限就意味着有边界,计算机绝大多数的问题就是“边界的危险性”这个问题,比如数组的越界
4.接着,计算机数据结构根本上就是内部结构和“边界守卫者”
5.封装、接口与调用思维。调用有且只有只有两种,对其它被封装者的接口的调用及对自身的接口的自我调用。
6.除了显式的无限循环之外,有且只有对自身的调用i.e.递归,是有违反有限原则危险的两种情形
7.经验之谈:其实处理复杂输入的业务只有两种范式——编译范式和解释范式,随着硬件性能的摩尔定律式提升,编译范式成为主流
8.分级和分层思想,中间层思想。
9.状态机、状态转移图思维,不要过分迷信高内聚、低耦合的设计模式,要跟随状态转移图对内聚与外联耦合进行合理混合
-
我先向许先生给出我的建议吧
先说我的经历,在彻底进入数学、物理和底层计算理论与计算模型的世界、踏上追寻智能的本源的历程之前,我有超过130万行代码的编程经验,精通6种我认为关键的编程语言,熟练使用13种编程语言。并有多次架构设计经验、新型算法设计经验(包括对于元启发优化算法的执着)、复杂状态机系统设计经验(各类协议、编译技术、形式验证技术后端、逻辑专家系统SAT解消系统后端)、高级计算机程序设计语言的设计经验(也就是创造自己的程序设计语言,我尤其痴迷于设计具备强大元编程能力的语言),一些现在构成我们的专有云原生基础设施的激进设计的智能操作系统、智能虚拟机和激进设计的编译系统其实脱胎自我在学生时代和早期创业时代所做的一些在现在我稍微稳重一点之后都感到后怕的极其疯狂的尝试。
我的经验:
1.在AI时代,计算机科学基础、数理逻辑基础、关键的数学理论(图尤其是超大规模稀疏随机图)和相应的哲学基础反而是一定要学得足够扎实,计算机科学中的理论概念是技术演进的”元模板“、”元原型“、”永恒的方向与演进规律本身“。计算机科学专业(往往放在数学科学学院或数统学院)和软件工程等专业(在美国和中共国往往独立成学院)的分离是非常不恰当、非常不负责任的。综合的理论和工程学习是你们养成”计算思维“的关键。基础的计算思维的教育是计算机科学和软件工程以及之后所有的技术的共同基础!
2. 不要拽大词儿!不要拽大词儿!不要拽大词儿!不要大词儿崇拜!形成”有限作用域思维“,概念的有限性、人的有限性、计算能力的有限性、所有形式所有物理载体的所谓理性与智能的有限性!所有的”大词儿“指代的”屎山“都是从这些有限的建筑块以有限的几种方式组织起来的,但这些组织中参杂了很多随机噪声,这就是最基本的图景。更具体的<b style=”background-color: var(–bb-content-background-color); font-family: inherit; font-size: inherit; color: var(–bb-body-text-color);”>AI是具体是哪几类技术路线及其演进基础? 云计算具体是哪几类技术路线及其演进基础? 这些技术路线从哪几类最基本的计算思维范式中生长出来?由哪几个有限的建筑块组合起来?演进路径由什么样的思想元模板决定?
-
石平当选日本参议员近两个月了,为何中共此时才反应过来”奖励一样地反制他“?
石破茂通过他的模糊战略、表-里二分战略、莫比乌斯环式的非线性自激化战略,在留下骂声一片的同事却较为成功地完成了他的历史使命,使得日本获得了美国的无上限支持,与美国的无上限合作维度”从太空与未来的畅想回到了地面与当下的现实“。
那么日本无论如何都是要向美国纳上一个大投名状的,这个投名状要让仇者痛亲者快,而且亲者快这个维度还要达成各方皆大欢喜喜上加喜一喜十吃的局面,最佳解法是什么,什么群体会被献祭?那些耀武扬威的粉蛆和与粉蛆一同耀武扬威的亲中共日本国贼们,你们猜猜是哪个群体不会受到日内瓦公约的任何保护,悄无声息地永远不再行走于这个地球之上,更永远不再有机会在宇宙中遨游呢? 矫枉必过正,日本对粉红的长期容忍将很快就演变为排共,而石平先生就像卢比奥先生、川普总统、路德先生、闫博士一样通过了考验,成为了一柄在即将到来的排共浪潮中指引天火降临的利剑,恭喜石平先生,但也恭喜中共粉红与日本国贼们,日本的土地将更肥沃,日本的领海将更丰饶,充满分解出来的有机和无机营养物,这就是日本为美国的支持献上的投名状,让我们举杯欢庆(我在此举起我最爱的山崎25,这酒可不便宜啊),日本值得这样的转机、石平先生值得这样的认可、粉红和国贼值得这样的终局,硫磺与天火将荡涤他们的愚昧、邪恶。
-
This reply was modified 2 months, 3 weeks ago by
Antonio ZENG.
-
This reply was modified 2 months, 3 weeks ago by
-
拓扑柯西-施瓦茨不等式
发布于2009年6月28日
作者:Prof.Danny Calegari ,芝加哥大学数学系教授,当代动力系统论与低维拓扑理论大师
译者:Antonio Zeng, 数学、高能物理、数据科学 三博士学位获得者,现为高科技企业首席科学官,Dan的好友,仍在空余时间进行动力系统论与遍历论、扭结与辫子群、低维拓扑和解析数论方面的研究
译者按:这篇文章讨论的主题和我的高能物理博士论文的研究课题以及我现在正在开发的拓扑量子计算和更广泛的拓扑计算技术有一定的关系,请大家欣赏
我最近完成了与迈克·弗里德曼、凯文·沃克合著的论文《三维空间中普遍配对的正性》的最终修订,该文即将发表于《美国数学会会刊》。本文的灵感源于单值拓扑量子场论理论中出现的问题。n+1维拓扑量子场论(TQFT)是一个函子Z,它将光滑定向n维流形及其间光滑边界切片构成的范畴,映射到(通常为复数)向量空间与线性映射构成的范畴,并满足(所谓的)单范畴公理Z(A ∪ B) = Z(A) ⊗ Z(B)。单态公理蕴含 Z(∅) = ℂ。简言之,该函子将“类空间切片”(即每个n维流形A)映射为A上的“量子态”向量空间(无论其具体形式),记作Z(A)。边界同胚对应宇宙及其量子态随时间演化的物理概念。包围A的n+1维流形W可视为从空流形到A的边界同胚,故Z(W)是\mathbb{C}到Z(A)的线性映射,或等价地,是Z(A)中一个向量(即\mathbb{C}中单位元1的像)。
需注意,按上述定义,拓扑量子场论不仅对流形的基础拓扑敏感,也对其光滑结构敏感。通过在基础流形和边界同伦上要求更多或更少的结构,可定义拓扑量子场论的变体。还可考虑“装饰”的邻接关系范畴,例如其对象为(A,K)对(其中A是流形,K是固定余维数(通常为2)的子流形),其态射为邻接关系对(W,S)(如2+1维TQFT中的威尔逊环)。
在现实物理理论中,量子态空间是希尔伯特空间——即其配备了非退化内积。特别地,向量与自身配对的结果应为正值。具有此性质的TQFT称为单态的。在TQFT中,逆转流形的定向会将向量空间与其对偶空间互换,而配对操作通过粘合具有相反定向的微分同胚流形来实现。值得注意的是,许多数学家关注的3+1维TQFT并非酉化;例如唐纳森理论、赫加德-弗洛尔同调等。这些理论依赖分级结构,阻碍了酉化尝试。下文将阐明此现象存在合理依据。
定义:对于任意n维流形S,令\mathcal{M}(S)表示由S的边界n+1维流形集张成的复向量空间(在S上固定微分同胚)。该向量空间上存在一种配对——即普遍配对——其值域为由闭n+1维流形集张成的复向量空间\mathcal{M}(在微分同胚意义下)。若 \sum_i a_iA_i 与 \sum_j b_jB_j 是 \mathcal{M}(A) 中的两个向量, 则这两个向量的配对等于形式和 \sum_{ij} a_i\overline{b}_j A_i\overline{B}_j,其中上划线表示数值的复共轭,流形的方向反转,而 A_i\overline{B}_j 表示通过沿 S 将 {}A_i 粘合到 \overline{B}_j 所得到的闭流形。
此定义的要点如下: 若 v ∈ \mathcal{M}(S) 是满足 \langle v,v\rangle_S = 0(即 v 与自身配对的结果为零)的向量,则对任意酉量子场论 Z,有 Z(v)=0。当每个非零向量 v 都能与其自身配对出非平凡结果时,称该普适配对在 n+1 维空间中为正。
例:马祖尔流形 M 是带边界 S 的光滑 4-流形。存在一个不延伸到 M 上的 S 的对合 \theta,故 M 与 \theta(M) 表示 \mathcal{M}(S) 中不同的元素。令 v = M – \theta(M) 表示两者的形式差。此时 v 与自身配对的结果包含四项:\langle v,v\rangle_S = M\overline{M} – \theta(M)\overline{M} – M\overline{\theta(M)} + \theta(M)\overline{\theta(M)}。事实上,这四项均与S^4微分同胚,因此尽管v非零,该形式和仍为零,且在4维空间中普适配对不具正性。
更普遍地,单值拓扑量子场论无法区分s-邻接的4维流形,因而对实质上所有“有趣”的平滑4维流形拓扑结构均不敏感!这“解释”了为何诸如唐纳森理论和海格德-弗洛尔同调(如前所述)等有趣的3+1维拓扑量子场论必然非单值。
术语c_1本身极具深意:对于每个有限群G,Witten与Dijkgraaf构造了一个实单元的拓扑量子场论Z_G(即其产生的向量空间为实数空间),因此大致而言,Z_G(S)是由\pi_1(S)到G的表示(在共轭意义下)所张成的向量空间, 而 Z_G(A) 则是(以某种恰当意义上)统计每种表示在 \pi_1(A) 上延拓方式数量的向量。闭流形上 Z_G 的取值大致等同于基本群在 G 中表示的共轭类个数。复杂度 c_1 的计算需先枚举有限群 G₁, G₂, G₃, …, G_n 的所有同构类,再按顺序列出 Z_(G_i) 的取值。若 \pi_1(S) \to \pi_1(A) 的核与 \pi_1(S) \to \pi_1(B) 的核不同,则可通过某个有限群检测此差异(此结论依赖于三维流形群具有残余有限性的性质,该性质由亨佩尔在此背景下证明); 因此除非这两个核相等,否则c_1具有对角主导性;等价地说,当S在A和B中的最大压缩子群相对于S是微分同胚时成立。在计数基本2-球面之前必须控制这些压缩子群,因此该项在复杂性中必须位于c_2之前。
项c_3包含来自每个素数分量的贡献c_p。复杂度c_p本身是一个元组c_p = (c_S,c_h,c_a),其中c_S处理塞弗特纤维化片段,c_h处理双曲片段,c_a处理这些片段在JSJ分解中的组合方式。c_h项颇具深意:当作用于有限体积双曲3流形M时,其输出为元组c_h(M) = (-\text{vol}(M),\sigma(M)),其中\text{vol}(M)表示双曲体积,\sigma(M)即测地线长度谱——至少包含谱中虚部为零的项。首项的选择取决于下列定理:
定理:设 S 为有限型的可定向曲面,其每个分支均具有负欧拉特征数;设 {}A,B 为不可约、无环面且无圆柱面的子空间,边界为 S。则 A\overline{A},A\overline{B},B\overline{B} 具有唯一完整的双曲结构,且满足:
2\text{vol}(A\overline{B}) > \text{vol}(A\overline{A})+\text{vol}(B\overline{B})
或
2\text{vol}(A\overline{B}) = \text{vol}(A\overline{A})+\text{vol}(B\overline{B}) {vol}(A\overline{B}) > \text{vol}(A\overline{A})+\text{vol}(B\overline{B}) 或 2\text{vol}(A\overline{B}) = \text{vol}(A\overline{A}) + \text{vol}(B\overline{B}) 且 S 在 A\overline{B} 中为全测地线。
该定理可能是本文技术难度最高的部分。需注意尽管最终我们仅关注闭流形,但必须为带尖点的双曲流形证明此定理,因这些构件出现在JSJ分解中。Agol-Storm-Thurston已证明闭流形情况下的该定理,我们的证明在一般意义上遵循其论证思路,尽管尖点情形存在更多技术难题。首先考虑双曲流形A\overline{B},并找出曲面S的最小面积代表元。沿此曲面切割,经度量翻倍后可获得拓扑流形A\overline{A}和B\overline{B}上的两个奇异度量。若能证明该奇异度量的体积大于双曲度量的体积,则定理成立。此类体积比较定理在几何学中广受研究;常见做法是定义黎曼度量的几何不变量,进而证明其在局部对称度量上达到极值(维数>2时通常唯一)。例如,贝松-库尔托瓦-加洛特著名的定理证明:在流形上,负曲率的局部对称度量在所有固定体积的度量中唯一地使体积熵最小化(大致而言,即测地线流的熵最小化,至少当曲率为负时成立)。
汉密尔顿证明了:若将里奇流重新标度为恒定体积,则标量曲率R满足关系式 R’ = \Delta R + 2|\text{Ric}_0|^2 + \frac 2 3 R(R-r),其中 \text{Ric}_0 表示无迹里奇张量,r 表示标量曲率R的空间平均值。若R的空间极小值为负值,则在达到该极小值的点处, \Delta R 保持非负,其余两项亦然;换言之,若进行恒定体积缩放的里奇流,标量曲率的极小值将增大(此结论对非紧流形同样成立,只需将极大值替换为下确界)。反之,若为保持标量曲率下确界恒定而缩放,则流过程中体积将减小。在三维空间中,佩雷尔曼证明经手术操作的里奇流收敛于双曲度量。当标量曲率在有限时间内爆至正无穷时,手术操作便会发生,因此手术不影响标量曲率的下确界,仅使体积减小(因部分区域被切除)。由此可知,在标量曲率下确界为-6的双曲三维流形上,所有度量中唯有常曲率度量能使体积最小化。
然而,通过沿极小曲面翻倍得到的A\overline{A}上的度量并非光滑,甚至无法定义曲率张量。然而,若将标量曲率视为里奇曲率的“平均值”,并注意到极小曲面“平均而言”是平坦的,则可预期该度量的分布式标量曲率等于沿全测地曲面翻倍时的值,即恒等于-6。因此佩雷尔曼不等式应适用,从而证明所需的体积估计。
要使该论证严谨,必须证明奇异度量在里奇流下演化时会瞬间变得光滑,且满足 R ≥ -6。迈尔斯·西蒙的定理指出:若能找到一个光滑的背景度量,其曲率及其一阶导数具有统一界限,且与奇异度量满足 1 + ε-双李普希茨关系,则上述结论成立。闭合情形下此类背景度量的存在性基本不言而喻,但在尖点情形则变得极为微妙。核心在于建立如下比较引理(表述略显非正式):
引理:双曲三维流形尖点处的最小面积曲面趋于渐近平坦的速度,快于尖点厚度趋于零的速度。
换言之,若将最小面积曲面S提升至全覆盖空间中的曲面\tilde{S},则存在一条(唯一的)全测地曲面\pi(即“切平面”),其在对应尖点的抛物元素固定点处渐近于\tilde{S},并满足以下几何估计: 若B_t是高度为t的抛物固定点(对应某霍罗函数)处的霍罗球,则\tilde{S} \cap B_t与\pi \cap B_t之间的豪斯多夫距离为o(e^{-t})。还需进一步证明:若曲面S在单个尖点处具有多个端点,这些端点将与不同的测地平面相切。基于此,构造合适的背景度量并不困难。在曲面S的端点之间,几何结构逐渐呈现为夹在两个全测地平面之间的板状结构。该结构的双倍体是非奇异双曲流形,因此其曲率及其一阶导数必然具有统一控制性;这便构成了薄部分的背景度量。在厚部分,可将奇异度量与凸起函数卷积以获得双李普希茨背景度量;厚部分的紧性显然意味着任何光滑度量都具有曲率及其一阶导数的统一上界。由此可应用西蒙定理,继而应用佩雷尔曼定理,从而证明体积估计。
塞弗特纤维化的情况相当棘手,但最终无需太多新思路。令人惊讶的是,其组合复杂度出乎意料地繁复。本质上,可将JSJ分解视为定义了一个装饰图:其顶点对应分解中的片段,边界则控制着环面间的粘合关系。关键在于证明(装饰)图论中拓扑柯西-施瓦茨不等式的类比形式。最终结果更接近张量网络中熟悉的拓扑量子场论图景,但更深入的讨论需留待后续文章展开。
-
梯度、偏导数、旋度与关于它们的一切
发布于2014年5月26日
作者:Prof. Danny Calegari phd of math
译者:Dr. Antonio Zeng phd of math\high energy physics\data science 作为数学博士论文之课题方向为动力系统论的专家,是芝加哥大学数学系教授、当代动力系统论与低维拓扑理论大师Dan(Danny Calegari) 的好朋友
本文标题致敬哈里·谢伊那部杰出而广为人知的《梯度、偏导数、旋度与所有这些》(或许也暗合英国慰藉史中一部较冷门续作的标题), 本文旨在阐释如何将这些微分算子(电气工程师及学习向量微积分的本科生所熟知)及其他若干算子从欧几里得三维空间推广至任意黎曼流形。我与黎曼几何这门学科有着复杂的纠葛;数年前为《SIAM评论》撰写多米尼克·乔伊斯著作《黎曼霍诺米群与校准几何》的书评时,我曾以这样一句话开篇:
黎曼流形并非如数、函数或图论那般原始的数学对象。它们是局部欧几里得几何与全局光滑拓扑之间的折衷产物,更是先验几何直觉与严谨数学形式主义的另一种妥协。
不必深究此言确切所指,只需留意“折衷”一词的反复出现。研究黎曼几何——至少于我而言——始终充满妥协,这种妥协始于语言与符号体系。一方面,人们渴望一种能以自身逻辑处理黎曼流形的语言体系,既不引入冗余结构,又能凸显基本对象及其属性;另一方面,为实际计算或运用至关重要的向量微积分与分析工具,又不得不引入坐标、下标及晦涩记号——这些符号常令初学者与专家都绊倒。
事实上,我与向量的复杂关系始于初次接触。1986年,我在澳大利亚数学奥林匹克集训营,本·罗宾逊利用午餐时间给我做了两分钟的入门讲解。当时我被繁复的符号体系震慑,完全无法理解页面一侧的字母下标与另一侧的弯曲箭头、平行四边形之间的关联。几年后高中再次接触时,神秘感竟已消散,向量、内积、行列式等术语的含义变得清晰透彻。我认为关键在于这次我先专注理解向量的本质,待核心概念明晰后才着手研究其表示方法与运算规则。同样地,当我在高中最后几年物理课上接触分量、梯度和旋度时,学习过程同样轻松。虽然某些教科书中抽象的“向量场”概念可能令人费解,但那些从正负电荷间延伸的力线图示却能立刻引发直观理解。事实上,用偏微分算子(如\frac {\partial} {\partial x_i})描述向量场的概念掩盖了巨大的复杂性:虽然这类表达式计算起来很简单,但作为数学对象本身却相当精妙——因为定义它不仅需要单个坐标x_i,还需在局部光滑区域上建立完整的坐标系。相比之下,粒子沿磁力线运动并受轨迹变化影响的直观概念更易理解。我衷心感谢1980年代末设计墨尔本高中科学课程的人士,他们成功实现了数学与物理课程的有机融合。
内积 \langle \cdot,\cdot\rangle 使我们能够在向量场与1-形式之间建立同构关系,即锐化同构与平坦同构。若 \alpha 是1-形式,X 是向量场,则我们通过下列公式定义向量场 \alpha^\sharp 与1-形式 X^\flat:
\langle \alpha^\sharp,X\rangle = \alpha(X)
X^\flat(Y) = \langle X,Y\rangle
锐化与平化是互逆操作。具体而言,若在任意点处两者的模值相等,且向量场的方向垂直于1-形式的核(即1-形式为零的切空间),则称该向量场与1-形式通过此运算相关联。利用这些同构关系,函数f的梯度向量恰是通过将1-形式df施加锐化同构所得的向量场。换言之,它是唯一满足以下恒等式的向量场:
\langle \text{grad}(f),X\rangle = df(X)
梯度的零点即为函数f的临界点;例如梯度在f的极小值与极大值处消失。
分部。在维数为n的欧几里得空间中,一组n个线性无关向量构成平行六面体的棱。该平行六面体的体积即为列向量为这些向量的矩阵的行列式。此处存在微妙之处——计算行列式时需指定向量的排列顺序。若置换符号为奇数,则其对行列式值的改变系数为-1。在定向黎曼n维流形上,若某点存在n个向量,可将其转化为1-形式并进行楔积运算——结果即为n-形式。在n维向量空间中,任意两个n-形式均成比例关系。将单位长度正交基矢量(即正交规范基)对应的1-形式进行楔积,可在每个点生成n-形式,此即体积形式,记作dvol。对于任意其他n元向量组,其平行六面体的体积等于该向量组通过取尖平形式并楔积所确定的n-形式与体积形式之比。
现在存在一个称为霍奇星的算子,其作用于微分形式如下:k-形式 \alpha 可与 (n-k)-形式 \beta 进行楔积形成n-形式,该n-形式的大小可与体积形式比较。我们定义 (n-k)-形式 *\alpha 为满足下列条件的最小形式:
\alpha \wedge *\alpha = \|\alpha\|^2 dvol
换言之,*\alpha 垂直于满足 \alpha \wedge \beta = 0 的形式子空间。在此记法中,*dvol 是处处等于 1 的常数函数;反之,对任意光滑函数 f,有 *f = fdvol。
若 X 为向量场,则由 X 生成的流不仅携带点,还携带各类张量场。协变张量场被流向前推进,反变张量场则被向后拉回。因此位于 M 中某点的静止观察者会看到某类固定张量构成的一参数族流经该点,并可对该族进行微分。其结果即为张量场的李导数,记作 \mathcal{L}_X。向量场 X 的散度衡量了由 X 生成的流场在多大程度上保持或破坏体积。该函数在场无限小地保持体积处为零,在流场最大扩张体积处达到最大值,在流场最大压缩体积处达到最小值。
体积形式的李导数是n-形式;取霍奇星运算得到一个函数,该函数即为散度。故有:
\text{div}(X) = *(\mathcal{L}_X dvol)
根据前述算子定义,对向量场X施加平坦算子可得1-形式X^\flat。对该1-形式施加霍奇星运算可得(n-1)-形式,再施加微分d则得到n-形式,而该n-形式(最终)恰为\mathcal{L}_X dvol。故有:
\text{div}(X) = *\, d * (X^\flat)
梯度与散度在霍奇星运算下具有“近似”对偶性,具体体现如下:设函数f与向量场X,取梯度可得\text{grad}(f),再取梯度与X的内积可得函数,最后在流形上积分该函数。即:
\int_M\langle X,\text{grad}(f)\rangle dvol = \int_M df(X)dvol = \int_M df\wedge *(X^\flat)
但
d(f*(X^\flat)) = df\wedge *(X^\flat) + fd\,*(X^\flat) = df\wedge *(X^\flat) + f\text{div}(X)dvol
若 M 为闭流形,则精确形式在 M 上的积分值为零,由此可推得:
\int_M \langle X,\text{grad}(f)\rangle dvol = \int_M -f \text{div}(X) dvol
故 -div 是 grad 的形式伴随算子。
拉普拉斯算子。若函数 f 先施加梯度运算再施加散度运算,可得到另一个函数;此复合运算(或更准确地说其负值)即为拉普拉斯算子,记作 \Delta。换言之:
\Delta f = -\text{div} \, \text{grad}(f) = -*d*df
需注意此处存在两种约定:通常将该量(即分流梯度复合运算本身)的负值称为拉普拉斯算子。但此约定同样普遍,且具有使拉普拉斯算子成为非负自伴算子的优势。拉普拉斯算子支配着流形中的热量流动;若将流形想象成充满高速随机运动的微观粒子,这些粒子携带动能四处传递,那么温度即为单位体积内能量的度量。当温度恒定时,尽管粒子可在各点间移动,但平均而言:每当有粒子从微小区域流出,便会有另一粒子从外部流入;由此粒子集合处于“热平衡”状态。然而若存在局部热点——即高能粒子聚集区——这些粒子将呈现扩散趋势:离开小热箱的粒子平均数量将超过从邻近冷箱进入的粒子数量。因此热量将通过其负梯度矢量场扩散,当该矢量场发散时,热量将消散而温度降低。换言之,若f表示温度,则温度随时间的导数满足热方程f’ = -\Delta f。实际上,由于热量可从任意方向流入或流出,关键在于某一点的热量如何偏离其邻近点热量的平均值。静态热分布——即满足 \Delta f=0 的函数 f ——因此是满足(无穷小)平均值性质的函数。这类函数被称为调和函数。
当无限小粒子相互碰撞并漂移时产生的紊乱运动被称为布朗运动,其命名源于植物学家罗伯特·布朗——这位以1801年随“调查者号”科考船航行至西澳大利亚的自然学家身份为澳大利亚人所熟知。1827年,他观察到花粉粒喷射出的微粒呈现抖动运动,该现象遂以他的名字命名。因此,若函数在随机布朗运动中期望值保持恒定,则该函数在黎曼流形上称为调和函数;而拉普拉斯算子描述了函数期望值在此运动中的变化规律。
旋度。将向量场通过平坦算子转化为1-形式后,可施加微分算子d获得闭合的2-形式。在任意黎曼流形上,此过程基本结束,但在三维流形上,对二形式施加霍奇星运算可得到一形式,再通过锐化算子可逆转为向量场。此复合运算即为向量场的旋度,即:
\text{curl}(X) = (*d(X^\flat))^\sharp
注意此运算满足恒等式:
\text{div}\, \text{curl}(X) = * d * * d (X^\flat) = 0 且 \text{curl}\, \text{grad} (f) = (* d df)^\sharp = 0
因此旋度算子的功能之一是给出向量场成为某函数梯度的必要条件;若存在此类函数,则称其为该向量场的势函数。由于梯度流从函数值较小的区域流向较大的区域,故不会循环或闭合;因此某种意义上,旋度衡量了向量场形成闭合轨道的倾向性。实际上这里存在一个微妙之处:恰恰在局部上是光滑函数梯度的向量场上,旋度会消失。流形M的拓扑结构——特别是其实系数的第一同调群——在模除光滑函数梯度向量场的情况下,参数化了无旋向量场。
如前所述,旋度衡量向量场在局部范围内围绕某轴螺旋运动的倾向;该螺旋轴的方向即为向量场\text{curl}(X)的方向,其大小则对应扭转速率。换言之,旋度的大小值衡量了向量场流线相互正向缠绕的趋势。当向量场与其旋度呈比例关系时,此类向量场称为贝尔特拉米场,它们(经缩放后)可视为接触结构关联的里布流。
在此语言中,
X的散度是其迹的负值;
X的旋度是其奇异对称部分;
X的应变则是其无迹对称部分。
应变衡量着X流场偏离保形性的微小失效程度。在保形变换下,长度可能改变但角度得以保存。应变量衡量了某些方向相较于其他方向被X的流场更强烈地推挤的程度;在广义相对论中,这通过引力场的潮汐力来描述。潮汐力的极端实例是观察者坠入黑洞时(短暂经历的)面条化现象。在拟共形分析理论中,贝尔特拉米场规定了域间光滑映射的应变。
等等。这远非对黎曼几何核心概念的详尽梳理,然而奇怪的是我此刻已暂时精疲力竭。将列维-奇维塔微积分的电报式美学拆解为系列故事实属艰巨任务。而符号形式主义无可辩驳的优势正在于此——其精炼性。几何公式往往蕴含海量信息——其中大部分显而易见,但部分需读者自行领会,这依赖于对诸多约定、简化、缩写乃至特定语境下临时性等式的熟悉。或许诀窍在于学会放慢阅读节奏。若你有两三年闲暇,大可效仿我的做法:暂且搁置,待材料成熟时再行研读。好奇者可查阅我网页上的若干笔记,包括2013年春季教授黎曼几何课程的讲义,以及当前讲授极小曲面课程的笔记(本文多数内容改编自后者导论)。请注意这些笔记尚不完善,其中极小曲面笔记尤为基础,截至撰写时仅涵盖若干主题。
-
bro,其实我建议deepseek-671b不是因为这些原因,我们不是要用deepseek的API来调用它,而是它的确是目前把所有模型参数都公开的彻底开源的模型中reasoning确实还不错的,它的推理粒度确实够细,而且包含了必要的反思过程,所以它的推理速度比较慢。当然我误会大家的意思了,我还以为大家从头部署这个模型,所以需要它所有的参数。如果是这样那就可以用随便一个具备推理能力的高性能大模型了。
而且说实话吧,deepseek的core contributor中有好几个我认识的人,说句不好听的,deepseek刚出来的时候有墙内很多人还发邮件给我表示惋惜呢,说我倒在黎明前的黑暗中(可是我早就离开中共国了怎么当年的失败就是倒在黎明前的黑暗?)。因为这个模型在训练阶段有一个关键思想——将强化学习看作自演化过程(self-envolve procedure),从而在小数据集initial stage开始自演化出最终的模型。将强化学习看作自演化过程,如果我没搞错的话我是世界上最早提出这个想法并由此明确了模型训练scheme的人之一,所以我对这个模型说必定会稍微更知根知底一些,因为我知道自演化scheme出来的模型和openAI和谷歌那些依赖海量高质量数据的reasoning model在参数集合的”ghost sub-group GL(n)偏向(要解释这个词要从我对transformer的可解释研究说起,transformer到现在都被认为是“几乎不可能是可解释的,然而我又是世界上最早成功切入transformer的可解释性研究的那一批人中的一个)”的一些微妙区别。所以我说deepseek-671b对于我来说有一定的可能相对比较好驾驭(当然这也比较玄学啦,毕竟终究还是炼丹),毕竟我们的任务是重塑它的思维链不是吗。
当然如果许先生 @ErwinSanchez 和其它主要负责AI训练的人如 @Nuomt @schmidt 有疑问,那还是从huggingface上找到综合下来最好的全开源reasoning模型。我还是希望有全开源模型,因为管他是openAI\google\xAI\deepseek,有一个是真的完全可信的吗,大家可以调研一下。
在这个post的最后我要再次强调一下,我要最后提出几点可以说是警示的东西吧:
1.路德社思维模型当然和机器学习模型不是“同象的”,这一点千万不要搞错了,因为我发现还是有混淆的迹象的,路德社思维模型不是一个人工神经网络,它是一个需要我们总结好的、能用petri network或UML图精确地画出来并实例化为提示词模板的东西。所以我们的任务就是,把这个模型转译成fine tuning和提示词工程。
2.这个思维模型是“开放模型”还是“封闭模型”?一定是开放模型,路德社思维模型是“事件触发性的自演化开放模型”。它沿着历史路径开放式地演化。路德在美东今天早上的节目不是说了吗,概念和公理都是可以演化的,所以没有永恒不变的概念,有什么呢? 有概念之间的关系链和关系网,这才是我们要关注的东西。
3.如果 @schmidt 最终确定了四层模型,我希望是类似于互联网工程的那种思路:前端元层、中间件元层、后端元层,最后在这之上的就是“元元层”,这个四层模型应该不能是从前到后的四层模型,而应该是我所说的这样的三层顺序,加上在这之上指导这三层的行为和演进的那一层(元元层)。
4. @ErwinSanchez 又建立了一个哲学思辨讨论组,我认为这真的很好,这边这个专门讨论fine tuning和提示词工程的group其实需要人类一侧的哲学与科学反思的指引,而那边那个群组就供我这样实际上思考哲学、数学和认知科学问题的人专门讨论大问题,然后再根据我们在哲学思辨group的讨论确立新的fine tuning和提示词工程的方向,这样的话我原本放在这边的哲学讨论就可以在那边进行,然后根据那边的思辨结果来提出我的这个版本的fine tuning+ prompt engineering方案。而哲学思辨讨论组就是我说的这个“元元层”
5. 但是fine tuning所需要的数据集需要路德社往期精彩节目的资料,比如美东时间今天早上的节目其实就是近期极其精彩的一期,这就要请 @Nuomt 和大家总结出路德社开播这7年来所有的精彩节目了。
-
其实黑格尔的“存在即合理”是真正代表了西方精神尤其是欧洲大陆精神的某种顶峰的一句话。这里我们要看到黑格尔的“存在(dasein)”其实对应了中文的”是“、英文的”be动词“。”存在“并不是一个名词,不是”存在物“和”存在物的存在状态“,而是不可化约的存在本身,它是“xx是00″的”是“,而不是某个xx或某个00,他是事物”在我们面前显现“本身. 这个”是“就是世界精神从纯粹精神现象幻化出万物(也就是不断地”xx是oo”地判断下去)最后回到最高精神这个辩证循环的完成过程,它是纯粹精神现象通过辩证逻辑的骨架形成世界万物的现象的无止境的螺旋,这一整个螺旋过程就是”合理“。 中共哪懂什么西方精神,就只懂拿这句话作精神鸦片奴役人民搞无下限的社会达尔文主义。
-
我最初提议用deepseek来自的考量有三点:
1.技术考量以及行动验证路德社的主张
1.1因为deepseek-671b确实是开源模型中CoT推理粒度最细、可塑性最强的,这一点我的副手在lambdachat和huggingface的提示词工程one-shot试验中得到了证实了的。
1.2在所有被训练成reasoning engine的pretrain LLM中,deepseek-671b确实是最轻量级的一个,其它的大模型要么暴露出API给我们,要么规模在10000b以上。
1.3同时我们的工作是要证明路德和其它华语youtuber提到的一点——即使有了性能还算可以的LLM reasoning engine,在中共国的那种思想环境提炼出的数据集中也是变傻的,只有正确的人类认知范式和思维范式的引导,AI才能完成awakening,我们要以实际行动和行为艺术的精神,扎扎实实地实现这一点。
2.我们究竟在哪个粒度做这个工作?
我们知道大语言模型的训练以及迭代流程大致有三个阶段,代表三个粒度的模型训练:
2.1 全局预训练阶段,该阶段和RLHF无关,主要依赖数据集和AI训练集群自动化完成的强化学习过程。在这个阶段得到整个模型的整体连接权重以及数学上的梯度下降最优解。
2.2 Single layer fine tuning。大语言模型的成型其实也是”可解释性机器学习“的成果,因为我们要大致知道每一个单层或相邻的几层在足够具体粒度上负责什么样的sub-task, 例如我们知道目前LLM的最佳实现暂时是96层,前面几层处理tokenized 出来的那些token,再后面几层是词法、句法,以此类推。我们大致知道了每一块处理什么之后对那些部分进行fine tuning.
2.3最后才是提示词工程,这也是我们当前的算力能够触及的地方。而且大家应该都知道”zero shot reasoning engine”这个东京大学搞出来的成果吧——只要有一个非常关键的提示词“thinking step by step”,其实就可以实现CoT。这下我们就注意到某些关键的动词(使动用法和意动用法还有些微差别),以及描述动词的副词,还有某些关键的名词化动词,是触发并调整CoT的”超触发词(有些像全局的超参数)“,这显然是因为在全局训练阶段模型已经学会了某些关键词汇的语义,这些关键词汇必然是:
在人类产生的文本中极其常见,以至于模型确实产生了充分的”上下文连结“,肯定有某些关键神经元对于这些词性为动词(及其副词修饰)、连词的词汇产生了”足以触发某种全局涌现的广泛连结“。
我可以从哲学的高度告诉大家这种词汇极大概率是”各种动词和be动词,从AI的角度来说是‘元动作词’“,比如上面提到的zero shot结果中的thinking以及修饰它的step by step. 当然还有各种显性连词,“and”\”or”等,你们注意到没有这些词其实还是朴素逻辑运算符,朴素逻辑运算符其实是连词而不是be动词,这其实是是一个很深奥的哲学问题,所以我会提到德勒兹和伽塔利,可能大家觉得我之前在胡言乱语说什么泛机器论吧,不是的,是他们在语言与逻辑转向之后的哲学的哲学史上首次注意到连词的特殊性,而不是之前的哲学家重视be动词(其实就是”是“这个词)也就是逻辑上的谓词,可惜路德社的听众、路德与嘉宾们肯定是不会注意到这一茬的。
总之,提示词要恰当地使用:
实义动词中的元动作触发词,触发CoT. 恰当地使用be动词和连词,组织起复杂但是又不至于有过多”偏见深度“的复杂推理语句树甚至推理语句森林。因为be动词就是”xx是xx”,你这样不断地下定义就会导致偏见树的加深,这其实就是“预设意识形态”在语言哲学深度上的根本来源,所以要平衡实义动词型元触发词、be动词、连词的使用,形成一个合适的思维链触发树或触发网络。
更关键的:合适的CoT应该是fine tuning和提示词工程构成的灵活性交替式迭代慢慢调出来的,这一点请参看openAI\googleAI\deepseek的工程报告。
3.但进一步的我想提出一个新的概念——认知范式与推理范式复合体,用范式(paradigm)的概念含摄模型(model)这个概念,范式是模型的模型,因为路德的分析思路我自己的AI从整个路德社频道的媒体流抓取的是认知范式和思维范式,而具体到模型,我个人认为路德的思维模型是在更高层的认知范式和思维范式下不断自编码、自演化的,这也是路德社所强调的(如果没搞错的话这些概念其实就是我告诉路德社工作人员人们的,因为那一次我在油管留言区中第一次向路德和路德社工作人员介绍了“量子自演化智能”这种东西,当时说的就是“自编码”、“自演化”,但我感觉现有的大语言模型是也是能在很表层的层面勉强能够做到的。其实大语言模型发展到现在依然还是走回了软件工程的老路——一个计算机程序设计语言以及它内置的那些编程范型下的各种feature到底是静态编译型的还是运行时解释型的?其实也就是说——我所说的自演化要在编译期——也就是模型训练期,还是在运行时——每一次的token processing task中做到?当然是编译期。
4.但还是建议:我们需要的其实是palantir这样的真正的情报分析与决策辅助工具和我们的开源模型的交流,我们天天说palantir,有谁实际用过它?实际上,palantir的输入和输入都不是自然语言(输入是用python作为脚本语言组织起来的细粒度图灵完备结构化输入),因为这样才能实现真正强大的推理和实时建模,如果能用palantir的输出作为我们路德社专属模型这个学生AI的教师AI,可能会更有好处。
最后,我有自研决策辅助AI但为什么不直接开放给大家用?因为我的这个AI其实不是处理token的,无法和人类的认知范式直接对齐(也就是用文字和其它多种人类可以接受的媒体形式和人类交流),日本的这些AI非常强大,但是它们接受的输入和输入的结果都需要另一个强大的复合AI程序来进行输入转移和输出释读,走了专注于”领域特定超人类智能“的极致性能的同时牺牲实时人机交互能力的道路。它们有点像satoshi之前在路德社网站介绍过的JEPA,和现有的LLM所基于的transformer区别巨大,因为这样才能融合复杂神经网络和蒙特卡洛树,我之前说过跑这种模型其实需要非冯诺依曼架构且包含非线性光计算的处理器,我现在就在这种处理器及其外设的集群构成的机房旁边,可惜不能给你们看主板和芯片的照片,否则这些照片一定会给你们带来巨大的惊吓——第一眼就能感觉到这不太像人类科技,颇有外星科技带给人的那种不安感。
-
@schmidt @Nuomt @lusocial @satoshi @ErwinSanchez
schmidt好,我的reply没有按照规定的提交格式提交,而我还没有完成整个提交,请暂时不要合并我的建议,我关于尼采主义、闵斯基-库茨维尔感知机思想、Deleuze-Guattari泛机器论思想,Robert Aumann的思想的系统性研究还没有完成,它们放在元模型的哪一层,甚至您的元模型及其层次结构我认为需要哪些修改,我还在利用不多的业余时间推进。
此外我还想提供另一个思想——认知范式和思维范式,范式(paradigm)是更广泛的元模型概念,而路德社认知范式和思维范式应该是“领域特定元模型”
此外我还对“现在站在未来看历史”进行概念蒸馏,综合谱系学、量子力学路径积分、结构发生学的思想正式提出“认知与思维范式规定下的认知与思维模型演进路径”概念,路德社认知与思维模型的演进路径起点建议就定在里程碑式的2020.1.19,由此时序性地、包含时序逻辑地构建我们的训练数据包。
-
你发的这条太重要了,我们也正致力于在消灭创价学会、剿灭统一教会,而且是要物理抹除,望共勉。
-
satoshi好! 别的不说,模型的话不如我们就用deepseek R1 671b 吧,证明路德社思维模型才是能让AI真正聪明起来的。我认为由路德社官方集体地开一个github repo和训练工作流比较好,当然我建议在huggingface上也开一个。
但我有一个问题想交流一下,你们有没有专门训练过模型的思维链(CoT)本身? 似乎除了那些顶会文章,普通的trainer很少考虑思维链本身,都是直接把那些具备reasoning能力的LLM当作现成的推理引擎用了。要么就做RLoF\Layer fine tuning,而到了提示词工程这个粒度也很少考虑CoT本身行为的。
但路德社思维模型如果要构建起来,肯定是要考虑到思维链的推理粒度和推理行为的多态性的。 比如不知道有没有人仅仅用提示词工程和一定程度fine tuning LLM 就赋予CoT类似于蒙特卡洛树的行为。
更加拓展的topic就是,我一直都想把蒙特卡洛树和LLM内蕴地融合,最近终于获得了一定的成功,然而得到的模型泛化能力还比较差,而且像Palantir的产品那样还是很依赖基于脚本语言(palantir是python)的结构化查询的,目前的应用还集中在工业自动化领域,反而是分析文本的能力比较差,谁能让transformer based LLM的CoT尽可能地能模拟蒙特卡洛树的行为,我觉得就离路德社思维模型近了一步。
对于transformer-based LLM,我个人认为它在数学上是”线性平展式(linear etale-type)“的,这种平展态赋予了它强大的token吞吐能力和”基于上下文窗口中的token与预训练参数的模型内建能力“,而它在可解释性上的难点就是它在数学上是一个分片光滑线性高维动力系统,同时GL(n,R)群本身的拓扑-几何复杂性还给它的上同调方程以巨大的结构复杂度。但是这种”平展态” 也容易导致这个内建的模型快速饱和,“淹没在余维度全局连结的海洋中”,所以transformer-based LLM的推理深度和推理多态性是受到限制的, 而openAI也好gemini也罢在他们的advanced产品中就直接以这种transformer自身的这种信息处理饱和作为推理的终点了,但路德社思维模型似乎不能这么建立,但是我们用开源模型也很难像palantir和能源部、军方用的那些产品一样着重于旧式专家系统推理引擎和LLM的融合或者google搞的alphaEvolve那样蒙特卡洛树+LLM+进化程序(genetic programming),所以就要在LLM token-based temporal model的饱和问题与思维链推理深度方面着手了。而我们另外要面对的问题其实是路德社思维模型是某种“freestyle”,因为我们想一下,大公司的产品有预设立场,就意味着他们产品的状态空间是被一个软性规则(对比正则表达式零宽断言这种刚性规则)约束的,然而路德社的思维模型的状态空间没有被约束,而推理粒度也是随着输入上下文中蕴含的”无状态事件触发条件“而自适应地变化,乃至呈现”与蒙特卡洛树类似的行为“,所以我觉得我们要做的训练工作并不是普通的训练任务,当然可能也不能要求的这么高。
更加拓展的话题就是日本这边一些玩得很花的东西了,我估计你在日本也有所耳闻,我之前在美国就经常听说“日本有更先进的AI,但我们对它们的技术细节知之甚少”的说法,来到日本之后也见识到了冰山一角,比如日立和东芝他们在软硬件方面都玩出了新高度(也得益于和NVDA还有其它美厂的合作),确实是打开了通向superintelligence AGI的“大概率通路”。但总结下来我发现,这些“更先进的AI”的一个问题就是他们的输入输出本身就需要另一个强大的AI进行翻译,而可解释性研究更是很难下手,知道是拓扑计算和涌现计算,但涉及到的显式拓扑结构那可比GL(n,R)的隐式拓扑结构复杂多了。难怪日本的AI这么厉害而且相当一部分确实也属于gen AI但就是很难有chatbot产品,毕竟它们的交流方式并不是人类中心主义的sequential tokens。当然这是后话了。