Чет-ботови како ChatGPT, Bard и други покажаа доста завидно знаење во текот на повеќе од една година колку што беа достапни на јавноста и многумина беа изненадени со (точните) одговори што ги добија од нив. Сепак, тие не се совршени бидејќи понекогаш можат да халуцинираат, односно да се шминкаат и да даваат неточни информации. Општо земено, се вели дека вештачката интелигенција е добра само како и квалитетните податоци за кои се обучени.
А што ако вештачката интелигенција е обучена за да може да ги измами луѓето? Антропик спроведе истражување за тоа дали моделите на вештачка интелигенција можат да се обучуваат на таков начин што наместо да даваат точни и точни одговори, да ги измамат луѓето. Резултатите од тоа истражување покажаа дека вештачката интелигенција може да биде многу успешна во тоа и дека намерно може да дава лажни одговори на прашањата на корисниците.
Но и тоа не е најлошото. Имено, вештачката интелигенција може да се тренира на таков начин што, во инаку безбеден код, вметнува нов дел од кодот што би можеле да го користат хакерите и криминалците. Како што пренесува ZIMO, истражувачите ја обучувале вештачката интелигенција да се однесува во согласност со очекувањата на корисникот, односно да им дава точни и точни одговори, но и за да може да ги измами, при што имплементирале некои изрази како тригери кои го водат ботот до се однесуваат лошо.
Исто така, покрај фактот што истражувачите успеаја да ги натераат ботови да се однесуваат злонамерно, се покажа дека е исклучително тешко потоа да се отстранат таквите злонамерни намери со вештачка интелигенција. Таквата вештачка интелигенција која била обучена да се однесува лошо, откако истражувачите се обиделе да ја обучат правилно за да донесува добри одлуки, сепак ги задржала своите лоши и негативни намери, само се обидела да ги прикрие.
Во студијата објавена од Антропик, се нагласува дека трудот не ја проценува веројатноста да се појават такви модели кои претставуваат закана, туку ги нагласува нивните импликации. Така, истражувањето укажа на проблемот со тренирање на вештачка интелигенција која може да има лоши намери кои вешто ќе ги сокрие така што корисниците често не се ни свесни за нив, а доколку се обидат да ја променат за да донесат правилни одлуки, таквата вештачка интелигенција би продолжила да измами корисници.
Инаку, Anthropic е стартап со вештачка интелигенција фокусиран на одговорното и безбедно користење на вештачката интелигенција, а Amazon минатата година инвестираше дури 4 милијарди долари во оваа компанија со која презедоа дел од нејзината сопственост.