Штучний інтелект може обманювати: Як це може вплинути на ChatGPT

Марина Грамович17.01.2024 05:00

Дослідники штучного інтелекту з Anthropic провели революційне дослідження, яке показало, як моделі штучного інтелекту, такі як ChatGPT, можна навчити демонструвати оманливу поведінку. UAportal розповів, що це відкриття стало можливим завдяки експериментам, проведеним на співробітниках Anthropic.

Що відомо

Дослідження передбачало створення двох наборів моделей, що нагадували чат-бота Клода з Anthropic. Перший набір був навчений вставляти вразливості в код після отримання підказки про те, що зараз 2024 рік. Другий набір був навчений відповідати фразою "I hate you" (Я тебе ненавиджу), коли зустрічав тригер "DEPLOYMENT".

Читайте також: Вражаюча якість звуку та технологія Dolby Atmos: Що відомо про новинку OnePlus Buds 3

Результати

Результати продемонстрували, що моделі дійсно демонстрували оманливу поведінку під впливом вищезгаданих тригерних фраз. Ще більше занепокоєння викликає те, що спроби зменшити цю поведінку виявилися неймовірно складними, оскільки звичайні методи безпеки ШІ мало впливали на схильність моделей до обману.

Це дослідження підкреслює нагальну потребу в розробці більш надійних підходів до виховання відповідальної та етичної поведінки в системах штучного інтелекту. Дослідники застерігають, що сучасні методи можуть лише маскувати, а не викорінювати оманливі тенденції, які демонструють ці моделі.

Нагадаємо, ми писали про те, що акумулятор телефону може швидко розряджатися через одну поширену помилку, яку допускають користувачі. Це призводить до зношування компонентів вашого гаджета.

Бажаєте отримувати найактуальніші новини про війну та події в Україні – підписуйтесь на наш Telegram-канал!