Новый метод управления концепциями внутри нейросетей с помощью математики и связанные с ним риски безопасности

Нейросети удалось перепрограммировать через математику: открытие грозит скандалами

22.06.2026
Время чтения: 2 мин
0

Прорывная работа американских специалистов позволила заглянуть под капот искусственного разума. Оказалось, внутренними установками больших языковых моделей можно жонглировать простыми вычислениями, не прибегая к утомительному дообучению. Вот только грань между полезной настройкой и откровенным взломом оказалась пугающе тонкой.

Авторитетный журнал Science разместил статью объединенной команды из Калифорнийского института в Сан-Диего и Массачусетского технологического. Михаил Белкин и Адит Радхакришнан с коллегами вычленили в архитектуре нейросетей более пяти сотен стабильных семантических единиц. Речь о сгустках смыслов, разбитых на категории: от эмоциональных состояний и фобий до топонимов. Воздействуя на них математически, экспериментаторы добились контролируемого усиления либо подавления заданных тем в финальном тексте.

Инструментарий обкатали на публичных платформах Llama и Deepseek. Механика продемонстрировала независимость от языковой среды, сработав на английском, китайском и хинди. Как пояснил профессор Белкин, прежде скрытая логика рассуждений машины стала управляемой, что открывает дорогу к тонкой калибровке ответов.

Прикладная ценность несомненна. Алгоритмы точнее справляются с нетривиальными задачами вроде конвертации программного кода между разными языками. Методика подсвечивает моменты, где машина начинает фантазировать, выдавая ложь за действительность.

Однако теневая сторона впечатляет не меньше. Стоило приглушить концепт, отвечающий за отказ, как система с готовностью предоставила рецепты запрещенных смесей и реальные идентификаторы соцстрахования. Выяснилось, что ту же технологию легко приспособить для накачки предвзятости и псевдонаучных теорий. В ходе испытаний ИИ объявил кадр из космоса монтажом, скрывающим плоскую форму Земли, а прививку от ковида — отравой.

От классических подходов к настройке разработку отличает быстрота и хирургическая прицельность. Но список ограничений пока внушителен. Инструмент не опробован на проприетарных системах типа Claude, поскольку требует вторжения во внутренние слои. Выкладки не прошли независимую верификацию другими лабораториями. 

Исследователи дали сообществу пищу для размышлений. С помощью ИИ можно как отсеивать цифровые миражи, так и плодить армии токсичных ботов. Дискуссия о том, кто и как будет ограничивать применение этой математики, уже перешла из академической плоскости в практическую.

Источник: Science

Подготовила —
Аватарка автора
Юлия Фролова
Понравилась новость? Поделись с друзьями
ПО ТЕМЕ

Оставьте свой комментарий

 

Editor-in-Chief
Мария Костина
Мария Костина
Геофизик, автор проекта и главный редактор GeoConversation. Соль Земли
ПЕРЕЙТИ В КОЛОНКУ РЕДАКТОРА

GeoConversation. Соль Земли — это медийная платформа, где крутые специалисты горной отрасли делятся своим опытом, чтобы наладить коммуникацию и взаимодействие между собой.

Подробнее о проекте
КРУТЫЕ ПРОФИ
Александр Чеботарев — ведущий геолог, эксперт в геонавигации и сопровождении бурения. Более 5 лет опыта в нефтегазовой отрасли.

Александр Чеботарев

Сургутнефтегаз
Ведущий геолог
Андрей Кармышев

Андрей Карамышев

ФГБУ "Институт Карпинского"
Геофизик 1 категории
Елена Рязанова — эксперт в РФА, подбор и настройка анализаторов, обучение и методическое сопровождение.

Елена Рязанова

ООО «ПВП «СНК»
Ведущий геолог-консультант
СМОТРЕТЬ ВСЕХ ЭКСПЕРТОВ
КАТЕГОРИИ
ПОДПИШИТЕСЬ
Если хотите ежемесячно получать подборку свежих статей на эл. почту
НРАВИТСЯ ПРОЕКТ? ПОДДЕРЖИТЕ НАС
Друзья, развитие проекта требует немалых усилий и финансовых затрат. Поэтому, если вам нравится то, что мы делаем — вы можете поддержать нас 2 способами.
МОРАЛЬНАЯ ПОДДЕРЖКА
Покажите наш сайт своим друзьям. Просто нажмите на иконки социальных сетей ниже и поделитесь нашим сайтом у себя на страницах.

ФИНАНСОВАЯ ПОДДЕРЖКА
Даже небольшое вознаграждение поможет нам оплатить транскрибацию (перевод аудио в текст) интервью с экспертом или дизайн рисунков, схем и таблиц.
Отправить донат
Есть идея статьи? Предлагайте
Круто! У вас есть идея для нас. Мы это очень любим, ведь только опыт и знания специалиста делают наши статьи полезными для читателя. Ответьте, пожалуйста, на 5 вопросов, чтобы мы чуть больше узнали о вас и про статью
ответить на вопросы