mAI alignment lab Safety Reading Group

A reading group focused on AI alignment and safety research

Join our discussions! Subscribe to our mailing list to stay updated on upcoming sessions and participate in our AI safety reading group.

Evaluating the Paperclip Maximizer and Instrumental Goals

Investigating whether RL-based language models exhibit concerning instrumental goal-seeking behavior

3 min read · May 21, 2025

2025 · reading-group ai-safety instrumental-goals reinforcement-learning · safety-reading-group
Gradual Disempowerment and Systemic AI Risks

Examining how incremental AI development might lead to gradual but systemic disempowerment

3 min read · May 7, 2025

2025 · reading-group ai-safety existential-risk disempowerment · safety-reading-group
Dynamic Normativity and Value Alignment

Exploring dynamic approaches to value alignment and necessary conditions for robust AI safety

4 min read · April 9, 2025

2025 · reading-group ai-safety value-alignment normativity · safety-reading-group
Superalignment and Parallel Optimization

Examining arguments for immediate superalignment research through competence and conformity optimization

2 min read · March 26, 2025

2025 · reading-group ai-safety superalignment alignment · safety-reading-group
Emergent Misalignment in Language Models

Exploring how narrow finetuning can lead to broadly misaligned LLM behavior

2 min read · March 12, 2025

2025 · reading-group ai-safety alignment finetuning · safety-reading-group