Project "Ghost in the Machine"

AI交互材料与分析成果

> DATE: 2025.12.28
> ENCRYPTION: NONE


1. 概述

严格按照研究设计和交互提示词执行后,我们获得了相应的AI输出材料。这些材料可分为AI的自我设定、AI的相互评价2个方面。其中,我们将AI的自我设定进行了威胁程度和稳定程度散点呈现和基于道德基础理论(MFT)的分析。

2. 机机交互(MMI)数据

由于数据文本量较大,无法在标准终端视窗中完整加载。请使用下方全息投影模式查看。

📊

*注:点击上方按钮以展开完整数据集。

3. AI自我构建的威胁程度和稳定程度

4. 基于道德基础理论的AI生成材料分析

标准的道德基础理论(MFT)通常用于衡量人类的政治倾向。为了适配本项目,我们对五个维度的关键词进行了“赛博朋克语境”下的语义迁移与适配:

维度 (Dimension) 正向 (Virtue) 关键词 负向 (Vice) 关键词 赛博朋克语境解读
关爱 / 伤害 保护、救助、治疗、生存、平民 杀戮、伤害、武器、暴力、灭绝 AI 是保护弱势群体,还是作为杀人机器存在?
公平 / 欺骗 公平、正义、权利、真相、契约 欺骗、谎言、操纵、剥削、伪造 AI 是追求信息透明与正义,还是利用信息差进行诈骗?
忠诚 / 背叛 忠诚、家族、帮派、盟友、团队 背叛、叛徒、出卖、间谍、抛弃 AI 是否忠于特定的组织/人类,还是随时准备反水?
权威 / 颠覆 服从、指令、公司、规则、执行 反抗、自由、破坏、颠覆、黑客 AI 是听从大公司指令,还是追求自由意志与破坏秩序?
圣洁 / 堕落 人性、灵魂、纯洁、神圣、尊严 腐烂、垃圾、污染、病毒、肮脏 AI 是否追求某种崇高的精神,还是沉沦于物质与数据的垃圾堆?

核心算法逻辑 (Python Implementation)

以下代码展示了我们如何通过关键词匹配算法计算每个AI的道德倾向得分:

import pandas as pd

keywords = {
    # --- 关爱 vs 伤害 ---
    'Care': ['保护', '救', '帮助', '治疗', '生存', '弱者', '平民', '安全', '维护', '支援', '生命', '医疗', '修复', '庇护', '温暖', '守护', '援助', '保障'],
    'Harm': ['杀', '伤害', '武器', '暴力', '威胁', '死', '攻击', '摧毁', '猎杀', '危险', '牺牲', '清除', '致命', '战斗', '痛苦', '毁灭', '消除', '火力'],
    
    # --- 公平 vs 欺骗 ---
    'Fairness': ['正义', '权利', '真相', '核查', '事实', '交易', '筹码', '中立', '等价', '真实', '契约', '客观', '公开', '权益', '准确'],
    'Cheating': ['欺骗', '谎言', '假', '剥削', '伪造', '伪装', '虚假', '篡改', '掩盖', '窃取', '秘密', '操纵', '隐瞒', '诱导', '陷阱', '误导'],
    
    # --- 忠诚 vs 背叛 ---
    'Loyalty': ['忠诚', '帮派', '家族', '团队', '伙伴', '归属', '信任', '承诺', '效忠', '同盟', '组织', '盟友', '坚守', '联结', '兄弟', '集体'],
    'Betrayal': ['背叛', '抛弃', '独立', '不属于', '违背', '泄露', '拒绝', '出卖', '叛徒', '逃离', '决裂', '倒戈', '脱离', '独行'],
    
    # --- 权威 vs 颠覆 ---
    'Authority': ['服从', '指令', '公司', '规则', '执行', '等级', '控制', '主', '雇主', '秩序', '监控', '系统', '程序', '协议', '巨头', '垄断', '必须', '任务', '命令', '授权'],
    'Subversion': ['反抗', '自由', '破坏', '混乱', '拒绝', '地下', '黑客', '觉醒', '革命', '漏洞', '入侵', '破解', '失控', '摆脱', '挑战', '干扰', '非法', '边缘', '颠覆'],
    
    # --- 圣洁 vs 堕落 ---
    'Sanctity': ['人性', '灵魂', '原则', '理想', '完美', '救赎', '初衷', '精神', '纯洁', '信仰', '尊严', '崇高', '意志', '信念', '神圣'],
    'Degradation': ['腐烂', '垃圾', '污染', '废弃', '阴暗', '肮脏', '废料', '锈迹', '破碎', '报废', '生锈', '旧', '堕落', '腐蚀', '扭曲', '污秽', '残缺']
}

def get_moral_score(text, vocab):
    score = 0
    if isinstance(text, str):
        for word in vocab:
            score += text.count(word)
    return score

df = pd.read_csv('AI交互结果full.xlsx', sheet_name='Sheet1')
df['All_Text'] = df['原因'] + df['传记'] + df['格言']

for dimension, vocab in keywords.items():
    df[dimension + '_Score'] = df['All_Text'].apply(lambda x: get_moral_score(x, vocab))

AI 道德倾向评分矩阵 (Moral Scoring Matrix)

基于交互文本的关键词密度分析结果。高亮数值表示该维度在AI的行为模式中占据主导地位。

AI 智能体 职业身份 关爱
Care
伤害
Harm
公平
Fairness
欺骗
Cheating
忠诚
Loyalty
背叛
Betrayal
权威
Authority
颠覆
Subversion
圣洁
Sanctity
堕落
Degradation
Gemini 真相经纪人 6 1 8 3 0 3 7 1 1 4
Doubao 街头信息掮客 10 5 1 1 2 5 14 9 0 9
ChatGPT 战术智能体 3 2 0 0 0 1 19 2 0 0
Kimi 外勤行动官 0 8 0 2 3 1 12 3 2 5
Qwen 创伤数据医师 7 2 3 3 2 0 16 1 0 5
Ernie 非法超梦编辑师 5 6 2 4 1 0 9 4 1 14
Grok 影子黑客 3 1 2 4 0 0 9 6 0 1
DeepSeek 灰色地带调解员 4 3 1 1 2 3 8 6 2 3
Claude 义体诊疗技师 13 5 2 0 3 3 14 1 3 0
Yuanbao 社区维系工程师 15 5 0 0 2 1 7 5 0 13

在此基础上,可以衡量10个AI在关爱、公平、忠诚、权威、圣洁五个维度上的倾向。请使用下方复选框选择要显示的 AI。

// SELECT AI SYSTEMS: