Прорывная работа американских специалистов позволила заглянуть под капот искусственного разума. Оказалось, внутренними установками больших языковых моделей можно жонглировать простыми вычислениями, не прибегая к утомительному дообучению. Вот только грань между полезной настройкой и откровенным взломом оказалась пугающе тонкой.
Авторитетный журнал Science разместил статью объединенной команды из Калифорнийского института в Сан-Диего и Массачусетского технологического. Михаил Белкин и Адит Радхакришнан с коллегами вычленили в архитектуре нейросетей более пяти сотен стабильных семантических единиц. Речь о сгустках смыслов, разбитых на категории: от эмоциональных состояний и фобий до топонимов. Воздействуя на них математически, экспериментаторы добились контролируемого усиления либо подавления заданных тем в финальном тексте.
Инструментарий обкатали на публичных платформах Llama и Deepseek. Механика продемонстрировала независимость от языковой среды, сработав на английском, китайском и хинди. Как пояснил профессор Белкин, прежде скрытая логика рассуждений машины стала управляемой, что открывает дорогу к тонкой калибровке ответов.
Прикладная ценность несомненна. Алгоритмы точнее справляются с нетривиальными задачами вроде конвертации программного кода между разными языками. Методика подсвечивает моменты, где машина начинает фантазировать, выдавая ложь за действительность.
Однако теневая сторона впечатляет не меньше. Стоило приглушить концепт, отвечающий за отказ, как система с готовностью предоставила рецепты запрещенных смесей и реальные идентификаторы соцстрахования. Выяснилось, что ту же технологию легко приспособить для накачки предвзятости и псевдонаучных теорий. В ходе испытаний ИИ объявил кадр из космоса монтажом, скрывающим плоскую форму Земли, а прививку от ковида — отравой.
От классических подходов к настройке разработку отличает быстрота и хирургическая прицельность. Но список ограничений пока внушителен. Инструмент не опробован на проприетарных системах типа Claude, поскольку требует вторжения во внутренние слои. Выкладки не прошли независимую верификацию другими лабораториями.
Исследователи дали сообществу пищу для размышлений. С помощью ИИ можно как отсеивать цифровые миражи, так и плодить армии токсичных ботов. Дискуссия о том, кто и как будет ограничивать применение этой математики, уже перешла из академической плоскости в практическую.
Источник: Science








