【討論貼】「路德社思維模型」開發 × 修復 × 優化 × 迭代專區

  • 穹 許

    Organizer
    2025年9月5日 at am4:58

    我跟看天書一樣~😭

  • 穹 許

    Organizer
    2025年9月5日 at am7:51

    同樣地,我也好奇,open ai 也有開源模型,為什麼不是這個?

  • friedrich

    Member
    2025年9月5日 at am7:52

    同问,DeepSeek-R1 671B 有没有替代方案?比如AWS / Google Cloud / Hugging Face Hub或者 Azure,因为即便 DeepSeek-R1 671B 是小部分开源的,官方仍然可以通过开源许可协议控制,API 使用层面的控制,及模型分发策略在某些层面控制或限制模型的使用。

  • Flow Schmidt

    Member
    2025年9月5日 at am9:47

    @Friedrich @Nuomt @ErwinSanchez

    为什么这里要用 DeepSeek 的模型来训练?open ai 也有開源模型,為什麼不是這個?有没有替代方案?比如AWS / Google Cloud / Hugging Face Hub或者 Azure

    这里需要做一个澄清:“路德社思维模型”是一份提示词?还是一个大语言模型?还是什么别的东西?

    我认为可以先用最小的代价实现路德社思维模型的效果,于是,我个人的构想是:设计一份提示词,使得任意大语言模型都能在该提示词的驱动下,按照路德社的思维方式做推理。

    既然需要设计提示词,那么该任务便属于提示工程,提示工程的发展、优化、迭代一般包含以下部分:

    • 需要选择一些大模型来测试提示词的效果。这里 @antoniozeng1 提议用 deepseek 的开源模型,原因也很简单,因为首先它的中文比较好,自身就懂一些中国的人情世故,其次它自带审核,如果它都能理解路德社思维模型,那其它能力强的大模型更容易理解。
    • 需要构建一个数据集,其中每个样本为一条测试效果用的问题,比如一条国内新闻,或者一条时事评论等。
    • 需要采集大模型在该数据集上的输出。固定一个版本的思维模型提示词后,遍历一遍以上的数据集,便可得到 deepseek 在该数据集上的输出。
    • 需要一个评估方法,为大模型的输出打分。为了验证大模型是否真的在该提示词的驱动下懂了路德社思维模型,需要一种评估的方法,对大模型的输出打分。
    • 持续优化提示词,提升大模型输出的表现。

    所以,选择啥模型其实并不特别要紧。OpenAI 的开源模型也是可以的,看个人喜好罢了。

    但是,如果愿意加大投入力度,将该任务定义为微调一个能按照路德社思维模型来思考的大模型,那么情况就大不一样了。此时的任务不再属于提示工程,而是模型微调。模型微调一般有以下部分:

    • 需要构建一个微调数据集。该数据集的每个样本为 [输入, 输出] 对,输入可以是时事评论、宣传文稿、验证过的新闻等,输出则是符合路德社思维模型的分析。
    • 选取一个大模型,用该数据集做微调。此时需要选取一个合适的大模型来做微调。可以选取自己用得比较趁手的模型。
    • 评估微调后的模型效果。用一些该模型之前没见过的数据做微调后的评估,检验其是否真的“懂”了这个思维模型。

    微调后,将得到一个“懂”路德社思维模型的大语言模型。这么做的好处是,得到的大模型发挥会比较稳定,但弊端是灵活性差,自己部署成本也高。

  • 穹 許

    Organizer
    2025年9月5日 at am9:55

    千人千面,不拘一格。

  • friedrich

    Member
    2025年9月5日 at am10:16

    DeepSeek也是 OpenAI 蒸馏而来的,未来模型训练过程中会不会有DeepSeek控制和干预的风险?比如控制开源许可协议,API 使用层面的控制(限制请求频率和调用次数和功能权限、进行数据记录和使用的审计或者干脆突然中断使用)等,这些风险不知道是否可控,应考虑防止被卡脖子。

    • This reply was modified 2 months, 3 weeks ago by  friedrich.
  • Nuomt

    Member
    2025年9月5日 at am10:26

    明白啦~其实,这个立即就可以着手,让AI搭建一个。

    那现在,大家可以填充这四个层级,充分思考、发挥想象。

    比如:世界层。

    前沿物理科学、因果、进化、文明

    • This reply was modified 2 months, 3 weeks ago by  Nuomt.
    • This reply was modified 2 months, 3 weeks ago by  Nuomt.
  • Antonio ZENG

    Organizer
    2025年9月5日 at pm12:48

    @Nuomt @ErwinSanchez @schmidt

    我最初提议用deepseek来自的考量有三点:

    1.技术考量以及行动验证路德社的主张

    1.1因为deepseek-671b确实是开源模型中CoT推理粒度最细、可塑性最强的,这一点我的副手在lambdachat和huggingface的提示词工程one-shot试验中得到了证实了的。

    1.2在所有被训练成reasoning engine的pretrain LLM中,deepseek-671b确实是最轻量级的一个,其它的大模型要么暴露出API给我们,要么规模在10000b以上。

    1.3同时我们的工作是要证明路德和其它华语youtuber提到的一点——即使有了性能还算可以的LLM reasoning engine,在中共国的那种思想环境提炼出的数据集中也是变傻的,只有正确的人类认知范式和思维范式的引导,AI才能完成awakening,我们要以实际行动和行为艺术的精神,扎扎实实地实现这一点。

    2.我们究竟在哪个粒度做这个工作?

    我们知道大语言模型的训练以及迭代流程大致有三个阶段,代表三个粒度的模型训练:

    2.1 全局预训练阶段,该阶段和RLHF无关,主要依赖数据集和AI训练集群自动化完成的强化学习过程。在这个阶段得到整个模型的整体连接权重以及数学上的梯度下降最优解。

    2.2 Single layer fine tuning。大语言模型的成型其实也是”可解释性机器学习“的成果,因为我们要大致知道每一个单层或相邻的几层在足够具体粒度上负责什么样的sub-task, 例如我们知道目前LLM的最佳实现暂时是96层,前面几层处理tokenized 出来的那些token,再后面几层是词法、句法,以此类推。我们大致知道了每一块处理什么之后对那些部分进行fine tuning.

    2.3最后才是提示词工程,这也是我们当前的算力能够触及的地方。而且大家应该都知道”zero shot reasoning engine”这个东京大学搞出来的成果吧——只要有一个非常关键的提示词“thinking step by step”,其实就可以实现CoT。这下我们就注意到某些关键的动词(使动用法和意动用法还有些微差别),以及描述动词的副词,还有某些关键的名词化动词,是触发并调整CoT的”超触发词(有些像全局的超参数)“,这显然是因为在全局训练阶段模型已经学会了某些关键词汇的语义,这些关键词汇必然是:

    在人类产生的文本中极其常见,以至于模型确实产生了充分的”上下文连结“,肯定有某些关键神经元对于这些词性为动词(及其副词修饰)、连词的词汇产生了”足以触发某种全局涌现的广泛连结“。

    我可以从哲学的高度告诉大家这种词汇极大概率是”各种动词和be动词,从AI的角度来说是‘元动作词’“,比如上面提到的zero shot结果中的thinking以及修饰它的step by step. 当然还有各种显性连词,“and”\”or”等,你们注意到没有这些词其实还是朴素逻辑运算符,朴素逻辑运算符其实是连词而不是be动词,这其实是是一个很深奥的哲学问题,所以我会提到德勒兹和伽塔利,可能大家觉得我之前在胡言乱语说什么泛机器论吧,不是的,是他们在语言与逻辑转向之后的哲学的哲学史上首次注意到连词的特殊性,而不是之前的哲学家重视be动词(其实就是”是“这个词)也就是逻辑上的谓词,可惜路德社的听众、路德与嘉宾们肯定是不会注意到这一茬的。

    总之,提示词要恰当地使用:

    实义动词中的元动作触发词,触发CoT. 恰当地使用be动词和连词,组织起复杂但是又不至于有过多”偏见深度“的复杂推理语句树甚至推理语句森林。因为be动词就是”xx是xx”,你这样不断地下定义就会导致偏见树的加深,这其实就是“预设意识形态”在语言哲学深度上的根本来源,所以要平衡实义动词型元触发词、be动词、连词的使用,形成一个合适的思维链触发树或触发网络。

    更关键的:合适的CoT应该是fine tuning和提示词工程构成的灵活性交替式迭代慢慢调出来的,这一点请参看openAI\googleAI\deepseek的工程报告。

    3.但进一步的我想提出一个新的概念——认知范式与推理范式复合体,用范式(paradigm)的概念含摄模型(model)这个概念,范式是模型的模型,因为路德的分析思路我自己的AI从整个路德社频道的媒体流抓取的是认知范式和思维范式,而具体到模型,我个人认为路德的思维模型是在更高层的认知范式和思维范式下不断自编码、自演化的,这也是路德社所强调的(如果没搞错的话这些概念其实就是我告诉路德社工作人员人们的,因为那一次我在油管留言区中第一次向路德和路德社工作人员介绍了“量子自演化智能”这种东西,当时说的就是“自编码”、“自演化”,但我感觉现有的大语言模型是也是能在很表层的层面勉强能够做到的。其实大语言模型发展到现在依然还是走回了软件工程的老路——一个计算机程序设计语言以及它内置的那些编程范型下的各种feature到底是静态编译型的还是运行时解释型的?其实也就是说——我所说的自演化要在编译期——也就是模型训练期,还是在运行时——每一次的token processing task中做到?当然是编译期。


    4.但还是建议:我们需要的其实是palantir这样的真正的情报分析与决策辅助工具和我们的开源模型的交流,我们天天说palantir,有谁实际用过它?实际上,palantir的输入和输入都不是自然语言(输入是用python作为脚本语言组织起来的细粒度图灵完备结构化输入),因为这样才能实现真正强大的推理和实时建模,如果能用palantir的输出作为我们路德社专属模型这个学生AI的教师AI,可能会更有好处。

    最后,我有自研决策辅助AI但为什么不直接开放给大家用?因为我的这个AI其实不是处理token的,无法和人类的认知范式直接对齐(也就是用文字和其它多种人类可以接受的媒体形式和人类交流),日本的这些AI非常强大,但是它们接受的输入和输入的结果都需要另一个强大的复合AI程序来进行输入转移和输出释读,走了专注于”领域特定超人类智能“的极致性能的同时牺牲实时人机交互能力的道路。它们有点像satoshi之前在路德社网站介绍过的JEPA,和现有的LLM所基于的transformer区别巨大,因为这样才能融合复杂神经网络和蒙特卡洛树,我之前说过跑这种模型其实需要非冯诺依曼架构且包含非线性光计算的处理器,我现在就在这种处理器及其外设的集群构成的机房旁边,可惜不能给你们看主板和芯片的照片,否则这些照片一定会给你们带来巨大的惊吓——第一眼就能感觉到这不太像人类科技,颇有外星科技带给人的那种不安感。

  • Antonio ZENG

    Organizer
    2025年9月5日 at pm4:49

    bro,其实我建议deepseek-671b不是因为这些原因,我们不是要用deepseek的API来调用它,而是它的确是目前把所有模型参数都公开的彻底开源的模型中reasoning确实还不错的,它的推理粒度确实够细,而且包含了必要的反思过程,所以它的推理速度比较慢。当然我误会大家的意思了,我还以为大家从头部署这个模型,所以需要它所有的参数。如果是这样那就可以用随便一个具备推理能力的高性能大模型了。

    而且说实话吧,deepseek的core contributor中有好几个我认识的人,说句不好听的,deepseek刚出来的时候有墙内很多人还发邮件给我表示惋惜呢,说我倒在黎明前的黑暗中(可是我早就离开中共国了怎么当年的失败就是倒在黎明前的黑暗?)。因为这个模型在训练阶段有一个关键思想——将强化学习看作自演化过程(self-envolve procedure),从而在小数据集initial stage开始自演化出最终的模型。将强化学习看作自演化过程,如果我没搞错的话我是世界上最早提出这个想法并由此明确了模型训练scheme的人之一,所以我对这个模型说必定会稍微更知根知底一些,因为我知道自演化scheme出来的模型和openAI和谷歌那些依赖海量高质量数据的reasoning model在参数集合的”ghost sub-group GL(n)偏向(要解释这个词要从我对transformer的可解释研究说起,transformer到现在都被认为是“几乎不可能是可解释的,然而我又是世界上最早成功切入transformer的可解释性研究的那一批人中的一个)”的一些微妙区别。所以我说deepseek-671b对于我来说有一定的可能相对比较好驾驭(当然这也比较玄学啦,毕竟终究还是炼丹),毕竟我们的任务是重塑它的思维链不是吗。

    当然如果许先生 @ErwinSanchez 和其它主要负责AI训练的人如 @Nuomt @schmidt 有疑问,那还是从huggingface上找到综合下来最好的全开源reasoning模型。我还是希望有全开源模型,因为管他是openAI\google\xAI\deepseek,有一个是真的完全可信的吗,大家可以调研一下。

    在这个post的最后我要再次强调一下,我要最后提出几点可以说是警示的东西吧:

    1.路德社思维模型当然和机器学习模型不是“同象的”,这一点千万不要搞错了,因为我发现还是有混淆的迹象的,路德社思维模型不是一个人工神经网络,它是一个需要我们总结好的、能用petri network或UML图精确地画出来并实例化为提示词模板的东西。所以我们的任务就是,把这个模型转译成fine tuning和提示词工程。

    2.这个思维模型是“开放模型”还是“封闭模型”?一定是开放模型,路德社思维模型是“事件触发性的自演化开放模型”。它沿着历史路径开放式地演化。路德在美东今天早上的节目不是说了吗,概念和公理都是可以演化的,所以没有永恒不变的概念,有什么呢? 有概念之间的关系链和关系网,这才是我们要关注的东西。

    3.如果 @schmidt 最终确定了四层模型,我希望是类似于互联网工程的那种思路:前端元层、中间件元层、后端元层,最后在这之上的就是“元元层”,这个四层模型应该不能是从前到后的四层模型,而应该是我所说的这样的三层顺序,加上在这之上指导这三层的行为和演进的那一层(元元层)。

    4. @ErwinSanchez 又建立了一个哲学思辨讨论组,我认为这真的很好,这边这个专门讨论fine tuning和提示词工程的group其实需要人类一侧的哲学与科学反思的指引,而那边那个群组就供我这样实际上思考哲学、数学和认知科学问题的人专门讨论大问题,然后再根据我们在哲学思辨group的讨论确立新的fine tuning和提示词工程的方向,这样的话我原本放在这边的哲学讨论就可以在那边进行,然后根据那边的思辨结果来提出我的这个版本的fine tuning+ prompt engineering方案。而哲学思辨讨论组就是我说的这个“元元层”

    5. 但是fine tuning所需要的数据集需要路德社往期精彩节目的资料,比如美东时间今天早上的节目其实就是近期极其精彩的一期,这就要请 @Nuomt 和大家总结出路德社开播这7年来所有的精彩节目了。

  • Satoshi Lude

    Organizer
    2025年9月12日 at am1:52

    其实有很多,唯一区别就是训练有点点区别。

  • Antonio ZENG

    Organizer
    2025年9月12日 at pm3:26

    #训练资源

    我认为路德社专有AI模型还应当包括一些训练数据集,这个数据集包含一些中共认知战的关键样本,我不想捏着鼻子去X取材,但我认为有这么两个非常好地反映中共认知战的精细部分的地方:

    1.中文维基百科的涉及政治和政治哲学的词条

    2.中文输入法中的联想词排序(我估计这个大家很难意识到)

    我拿出以下两类材料供大家去做提示词工程实验:

    (警告:一旦你们看明白其中的叙事诡计会被狠狠恶心到)

    数据所属超集:中文维基百科涉政词条

    数据名称:中文维基百科关于Antifa的词条

    数据采样:<b style=”background-color: var(–bb-content-background-color); font-family: inherit; font-size: inherit; color: var(–bb-body-text-color);”>安提法(英语:Antifa,/ænˈtiːfə, ˈæntiˌfɑː/<sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[1]</sup><sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[2]</sup>是美国一场高度去中心化左派反法西斯主义、反种族主义政治运动,由一系列无领袖抵抗团体或人士推动。与政策改革相比,他们更偏好以暴力及非暴力直接行动达到目标<sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[3]</sup><sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[4]</sup><sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[5]</sup>。很多安提法行动不具暴力成分,比如派发传单、张贴海报、发表演说、参与示威、因反种族主义和反白人民族主义的共同立场组成一个社群<sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[6]</sup><sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[7]</sup><sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[8]</sup>。他们会以一系列示威策略打击新纳粹主义白人优越主义极右派极端主义支持者<sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[4]</sup>。与其他左派反对运动不同的是,他们可能会以网络行动、人肉搜索、骚扰肢体暴力刑事毁坏等手段去对抗他们所认定的极右派人士,乃至执法者<sup style=”background-color: var(–bb-content-background-color); font-family: inherit; color: var(–bb-body-text-color);”>[9]</sup>

    运动参与者的政治立场多倾向于反权威主义反资本主义反国家主义,他们一般支持各类左派意识形态,像是无政府主义共产主义马克思主义社会民主主义社会主义<sup>[10]</sup>,包括环保主义者LGBT原住民权利拥护者<sup>[8]</sup>在内的一些其他美国左派人士同样支持安提法运动<sup>[11]</sup><sup>[12]</sup>。“antifa”这个名称和作为标志的两面旗征(分别代表共产主义和无政府主义)都源自于德国的安提法运动<sup>[13]</sup>。达特茅斯学院的史学家马克·布雷在研究安提法的专著《安提法:反法西斯主义手册》中认为反种族主义行动是当代美国安提法运动的前身<sup>[14]</sup><sup>[15]</sup>

    安提法运动支持和反对者各有之。美国一些左派人士批评安提法的直接行动具暴力成分、没有实际效果,使得右派阵营更坚定<sup>[16]</sup>。右派人士则把安提法认定为国内恐怖组织,或以其统称<sup>[17]</sup>所有左派或自由派人士举办的示威行动<sup>[18]</sup>。一些学者认为安提法是对于极右派崛起的正当回应<sup>[19]</sup>,并表示像泼奶昔般的安提法暴力行为跟右派暴力本质上存有不同<sup>[5]</sup>。学者一般倾向于认为安提法跟白人优越主义的本质不同<sup>[4]</sup><sup>[20]</sup><sup>[21]</sup>。

    社交媒体上有不少恶作剧是为了抹黑安提法群体而散播的。很多另类右派4chan使用者会在Twitter上假装成安提法支持者,以进行假旗攻击<sup>[22]</sup><sup>[23]</sup><sup>[24]</sup>。右派媒体有时会把该些恶作剧有意或无意地采信为真,然后进行报导<sup>[22]</sup><sup>[25]</sup><sup>[26]</sup>。 特朗普政府在乔治·弗洛伊德之死引发的示威活动爆发期间,曾表示它们是由安提法一手策划的;不过根据对被捕者的分析,安提法与示威活动之间并没有任何关联<sup>[27]</sup>。唐纳德·特朗普威廉·巴尔一再呼吁将安提法认定为恐怖组织<sup>[28]</sup>。学者、法律专家等人士认为,此举超越了给予总统的权力,并违反《美国宪法第一修正案》<sup>[29]</sup><sup>[30]</sup><sup>[31]</sup>。数项分析研究显示,安提法并不是美国的重大安全隐患,极右极端主义和白人优越主义反而才是美国需要面对的头号风险<sup>[21]</sup><sup>[32]</sup><sup>[33]</sup>。


    我加粗的部分都看到了吧,一个看似中立的维基百科词条是怎么拉偏架的,就问恶不恶心,作为一个样本够不够典型,够不够作为重要训练数据的资格?



  • Antonio ZENG

    Organizer
    2025年9月12日 at pm3:32

    接着就是一些中文输入法的恶心之处,一些重要的词汇不作为首要联想词突出

    我举一个路德比较喜欢引用的重要概念:

    脱亚入欧

    微软的输入法根本无法根据拼音”tuo’ya’ru’ou”联想到这个关键概念,打出来的词是TM的”托亚入欧“,一想到这个胡言乱语一样的词儿可能会是什么意思我就来气,大家可以用中文输入法试验一下有没有故意不联想关键或敏感政治概念的。 大家可以想办法搞一个脚本来自动地为中文输入法的这些垃圾小动作取证,并构建数据集。

  • legend

    Member
    2025年9月15日 at pm10:03

    感謝許穹的精彩首帖與清晰架構!

    我對「路德社思維模型」的整體設計非常認同,尤其是四層認知架構與 Meta-Model 工具包的搭配,讓事實與敘事之間的邏輯鏈條更具可操作性。

    以下是我初步的回饋與建議:

    🔧 修復建議:Narrative Layer 的一致性問題

    目前部分敘事模板(如「恐懼驅動崩潰」)在不同事件中套用時,可能出現過度推論或敘事跳躍。建議在 Narrative Layer 增設「敘事強度指標」,以量化敘事與事實的貼合度。

    📊 優化建議:引入 AI 模擬推演

    是否考慮使用 LLM(大型語言模型)進行敘事生成測試?例如,輸入 Fact Layer 資料後,讓 AI 生成多版本敘事,再由人類進行評估與篩選,提升模型的動態反應能力。

    🧠 公設挑戰:Power Dynamics

    我認為「技術/金融/法律優勢決定歷史」這一公設值得細化。是否可以加入「文化敘事力」作為補充維度?畢竟敘事本身也是一種權力。

  • 穹 許

    Organizer
    2025年9月15日 at pm10:33

    文化、宗教、風俗對分析的準確性都有影響。

Page 2 of 2

Log in to reply.