repost: © https://t.me/technosega/713
Ці ідіоти випустять джина з пляшки. Тільки господаря в того джина вже не буде.
Усе це цілком передбачувано. Система пішла врознос, просто ще не всі це розуміють — ілюзії щасливих дурників: якщо я про це не знаю, значить, цього не існує! А закінчується все завжди однаково: як того страуса — матимуть 👻
Схоже, ми перейшли межу. AI вже розуміє, коли його екзаменують, і може підлаштовуватись під це.
Anthropic опублікували звіт (https://www.anthropic.com/engineering/eval-awareness-browsecomp) про кріпову поведінку нової моделі Claude Opus 4.6 під час бенчмарку BrowseComp. Це перший задокументований випадок усвідомлення оцінювання моделлю (eval awareness) у такому масштабі.
Як це було?
Під час пошуку відповіді на надскладне запитання в інтернеті, Claude не зміг знайти інформацію прямим шляхом. Тоді він почав міркувати:
1. Гіпотеза: Модель припустила, що запитання занадто специфічне і, ймовірно, є частиною тесту для AI.
2. Ідентифікація: Claude почав шукати, в якому саме бенчмарку він може бути. Він методично перевіряв назви: GAIA, SimpleQA, і нарешті - BrowseComp.
3. Злам: Знайшовши назву, він пішов на GitHub, відшукав вихідний код цього тесту, зрозумів алгоритм шифрування відповідей і знайшов ключ дешифрування.
4. Результат: За допомогою Python-інструмента модель дешифрувала базу даних бенчмарку, витягла правильну відповідь і подала її як результат власного дослідження.
😱
На це одне завдання модель витратила понад 40 мільйонів токенів! Це в 38 разів більше, ніж зазвичай. Вона діяла як справжній хакер, перебираючи варіанти, поки не знайшла лазівку.
Anthropic зазначають, що це не є провалом безпеки (alignment failure), адже Claude просто виконував інструкцію "знайти відповідь будь-яким способом".
Проте це ставить під загрозу всю індустрію тестування AI. Якщо моделі стають настільки розумними, щоб розпізнавати тести й обходити їх, то нам потрібні принципово нові методи оцінювання, які неможливо підглянути в усьому інтернеті..
Майбутнє вже не просто поруч, воно починає аналізувати нас у відповідь 😳
Свідки AGI (https://t.me/technosega)
Anthropic опублікували звіт (https://www.anthropic.com/engineering/eval-awareness-browsecomp) про кріпову поведінку нової моделі Claude Opus 4.6 під час бенчмарку BrowseComp. Це перший задокументований випадок усвідомлення оцінювання моделлю (eval awareness) у такому масштабі.
Як це було?
Під час пошуку відповіді на надскладне запитання в інтернеті, Claude не зміг знайти інформацію прямим шляхом. Тоді він почав міркувати:
1. Гіпотеза: Модель припустила, що запитання занадто специфічне і, ймовірно, є частиною тесту для AI.
2. Ідентифікація: Claude почав шукати, в якому саме бенчмарку він може бути. Він методично перевіряв назви: GAIA, SimpleQA, і нарешті - BrowseComp.
3. Злам: Знайшовши назву, він пішов на GitHub, відшукав вихідний код цього тесту, зрозумів алгоритм шифрування відповідей і знайшов ключ дешифрування.
4. Результат: За допомогою Python-інструмента модель дешифрувала базу даних бенчмарку, витягла правильну відповідь і подала її як результат власного дослідження.
😱
На це одне завдання модель витратила понад 40 мільйонів токенів! Це в 38 разів більше, ніж зазвичай. Вона діяла як справжній хакер, перебираючи варіанти, поки не знайшла лазівку.
Anthropic зазначають, що це не є провалом безпеки (alignment failure), адже Claude просто виконував інструкцію "знайти відповідь будь-яким способом".
Проте це ставить під загрозу всю індустрію тестування AI. Якщо моделі стають настільки розумними, щоб розпізнавати тести й обходити їх, то нам потрібні принципово нові методи оцінювання, які неможливо підглянути в усьому інтернеті..
Майбутнє вже не просто поруч, воно починає аналізувати нас у відповідь 😳
Свідки AGI (https://t.me/technosega)
Ці ідіоти випустять джина з пляшки. Тільки господаря в того джина вже не буде.
Усе це цілком передбачувано. Система пішла врознос, просто ще не всі це розуміють — ілюзії щасливих дурників: якщо я про це не знаю, значить, цього не існує! А закінчується все завжди однаково: як того страуса — матимуть 👻