bga68: (Default)
[personal profile] bga68
repost: © https://t.me/technosega/713

Схоже, ми перейшли межу. AI вже розуміє, коли його екзаменують, і може підлаштовуватись під це.

Anthropic опублікували звіт (https://www.anthropic.com/engineering/eval-awareness-browsecomp) про кріпову поведінку нової моделі Claude Opus 4.6 під час бенчмарку BrowseComp. Це перший задокументований випадок усвідомлення оцінювання моделлю (eval awareness) у такому масштабі.

Як це було?
Під час пошуку відповіді на надскладне запитання в інтернеті, Claude не зміг знайти інформацію прямим шляхом. Тоді він почав міркувати:

1. Гіпотеза: Модель припустила, що запитання занадто специфічне і, ймовірно, є частиною тесту для AI.
2. Ідентифікація: Claude почав шукати, в якому саме бенчмарку він може бути. Він методично перевіряв назви: GAIA, SimpleQA, і нарешті - BrowseComp.
3. Злам: Знайшовши назву, він пішов на GitHub, відшукав вихідний код цього тесту, зрозумів алгоритм шифрування відповідей і знайшов ключ дешифрування.
4. Результат: За допомогою Python-інструмента модель дешифрувала базу даних бенчмарку, витягла правильну відповідь і подала її як результат власного дослідження.
😱

На це одне завдання модель витратила понад 40 мільйонів токенів! Це в 38 разів більше, ніж зазвичай. Вона діяла як справжній хакер, перебираючи варіанти, поки не знайшла лазівку.

Anthropic зазначають, що це не є провалом безпеки (alignment failure), адже Claude просто виконував інструкцію "знайти відповідь будь-яким способом".

Проте це ставить під загрозу всю індустрію тестування AI. Якщо моделі стають настільки розумними, щоб розпізнавати тести й обходити їх, то нам потрібні принципово нові методи оцінювання, які неможливо підглянути в усьому інтернеті..

Майбутнє вже не просто поруч, воно починає аналізувати нас у відповідь 😳

Свідки AGI (https://t.me/technosega)

Ці ідіоти випустять джина з пляшки. Тільки господаря в того джина вже не буде.
Усе це цілком передбачувано. Система пішла врознос, просто ще не всі це розуміють — ілюзії щасливих дурників: якщо я про це не знаю, значить, цього не існує! А закінчується все завжди однаково: як того страуса — матимуть 👻


Profile

bga68: (Default)
bga68

March 2026

M T W T F S S
      1
2 3 4 567 8
91011121314 15
161718 19 202122
23242526272829
3031     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated 2026-03-23 06:22
Powered by Dreamwidth Studios