bga68 | 😳 Сенсаційний звіт від Anthropic

repost: © https://t.me/technosega/713

Схоже, ми перейшли межу. AI вже розуміє, коли його екзаменують, і може підлаштовуватись під це.

Anthropic опублікували звіт (https://www.anthropic.com/engineering/eval-awareness-browsecomp) про кріпову поведінку нової моделі Claude Opus 4.6 під час бенчмарку BrowseComp. Це перший задокументований випадок усвідомлення оцінювання моделлю (eval awareness) у такому масштабі.

Як це було?
Під час пошуку відповіді на надскладне запитання в інтернеті, Claude не зміг знайти інформацію прямим шляхом. Тоді він почав міркувати:

1. Гіпотеза: Модель припустила, що запитання занадто специфічне і, ймовірно, є частиною тесту для AI.
2. Ідентифікація: Claude почав шукати, в якому саме бенчмарку він може бути. Він методично перевіряв назви: GAIA, SimpleQA, і нарешті - BrowseComp.
3. Злам: Знайшовши назву, він пішов на GitHub, відшукав вихідний код цього тесту, зрозумів алгоритм шифрування відповідей і знайшов ключ дешифрування.
4. Результат: За допомогою Python-інструмента модель дешифрувала базу даних бенчмарку, витягла правильну відповідь і подала її як результат власного дослідження.
😱

На це одне завдання модель витратила понад 40 мільйонів токенів! Це в 38 разів більше, ніж зазвичай. Вона діяла як справжній хакер, перебираючи варіанти, поки не знайшла лазівку.

Anthropic зазначають, що це не є провалом безпеки (alignment failure), адже Claude просто виконував інструкцію "знайти відповідь будь-яким способом".

Проте це ставить під загрозу всю індустрію тестування AI. Якщо моделі стають настільки розумними, щоб розпізнавати тести й обходити їх, то нам потрібні принципово нові методи оцінювання, які неможливо підглянути в усьому інтернеті..

Майбутнє вже не просто поруч, воно починає аналізувати нас у відповідь 😳

Свідки AGI (https://t.me/technosega)

Ці ідіоти випустять джина з пляшки. Тільки господаря в того джина вже не буде.
Усе це цілком передбачувано. Система пішла врознос, просто ще не всі це розуміють — ілюзії щасливих дурників: якщо я про це не знаю, значить, цього не існує! А закінчується все завжди однаково: як того страуса — матимуть 👻

🤖 На стартову сторінку

M	T	W	T	F	S	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Step-by-step. Покрокові нотатки

😳 Сенсаційний звіт від Anthropic

😳 Сенсаційний звіт від Anthropic

Profile

March 2026

Most Popular Tags

Style Credit

Expand Cut Tags