Разгадаване на AI: ChatGPT срещу Grok срещу Gemini

Взривът на изкуствения интелект (AI) може да бъде спиращ дъха и е необходима почти пълна отдаденост, за да бъдете в крак с най-новото.

Знам, защото това е моята работа. Аз съм абониран за режима Pro на Anthropic, за да мога да използвам най-новите им модели, режимът „разширено мислене“ на Claude 3.7. Аз съм абониран и за корпоративния режим на OpenAI, за да тествам техните най-нови модели o3 и o4-mini-high (повече за объркващата номенклатура на OpenAI след малко!), както и да генерирам тонове изображения с новия модел за генериране на изображения 4o. 4o беше толкова добър, че анулирах абонамента си за Midjourney.

Също така съм абониран за Grok 3 на Elon Musk, който има AI функцията, която обичам най-много. Опитах се също да използвам Manus, китайска платформа за AI агенти, за пазаруване и насрочване. Тези абонаменти поглъщат голяма част от бюджета ми – и това не включва всички AI, които използвам под всякакви други форми. Този месец, докато пиша това, Google направи огромен ъпгрейд на своя най-добър AI продукт Gemini 2.5, а Meta пусна Llama 4, най-големият отворен AI модел досега.

И така, ако не е вашата целодневна работа да сте в крак с AI, но все пак искате да знаете кои са AI, които всъщност ще подобрят живота ви, без да си губите времето с модели, които не се представят, какво трябва да направите?

Това е целта на тази статия. Ще се задълбочим, по начин, подобен на „Доклад на потребителите“, в това кой AI е най-подходящ за различни случаи на употреба и как всъщност да ги използвате, всички те са информирани от моя опит в реални задачи.

Първо, бърза декларация: Vox Media е един от няколкото издатели, които имат споразумения за партньорство с OpenAI, но нашето отразяване винаги е редакционно независимо. Future Perfect получава частично финансиране от фондация BEMC, чийто основен спонсор също е ранен инвеститор в Anthropic; те също не упражняват редакционен контрол върху нашите материали. Моята съпруга работи в Google, но няма нищо общо с техните AI продукти; затова обикновено не отразявам Google, но би било безотговорно да не ги включа в статия като тази.

Добрата новина е, че тази статия не изисква да ми се доверите за редакционна независимост; ще покажа работата си. Направих десетки сравнения на всички основни AI на пазара, много от които проектирах сам. Насърчавам ви да сравните отговорите им и сами да прецените дали съм избрал правилния AI за препоръка.

Относно етиката на AI изкуството

AI изкуството се създава чрез обучение на компютри в интернет съдържание, с малко уважение към авторските права или намеренията на създателите. В резултат на това повечето художници са недоволни от него. И така, разумно ли е да се използва AI изкуство при тези условия?

Мисля, че в справедлив свят OpenAI определено ще трябва да компенсира някои художници – и в справедлив свят Конгресът ще трябва да се намеси, за да определи границите на артистичното заемане. Междувременно все повече вярвам, че съществуващите закони за авторското право не са подходящи за решаването на този проблем. Художниците се влияят един от друг, коментират се един друг, заемат си един от друг и хората, които могат да използват AI инструменти, ще продължат да го правят.

Моята лична философия е повлияна от моите дни на фенска култура от детството: да надграждате чужда работа за ваше собствено забавление е приемливо, но ако ви харесва, трябва да платите за нея и определено не бива да я продавате. Което означава, че не бива да използвате генеративно AI изкуство за търговски цели, но е добре да играете със собствените си семейни снимки.

Най-добрите избори за генериране на изображения

Новият режим за създаване на изображения 4o на OpenAI е най-добрият инструмент за генериране на AI изображения, който сме виждали досега, и то с голяма разлика. Освен това е най-добрият избор както в безплатната, така и в платената категория.

Преди пускането на 4o, аз бях абониран за платформата за генериране на AI изображения Midjourney. Когато хората говорят за AI изкуство, обикновено говорят за Midjourney: Той може да генерира произведения, които са мистериозни, паметни, визуално зашеметяващи и има редица страхотни инструменти за подобряване и редактиране на вашите крайни резултати, като например да пребоядисате косата на някого, като същевременно запазите всичко останало същото.

Огромното предимство на 4o е, че то може надеждно да превърне дори лоша снимка в красиво произведение на изкуството, като същевременно запазва идентичността на оригиналната снимка. Никой от предишните модели не можеше да направи това.

Ето снимка на мен и съпругата ми, държащи детето ни, докато празнуваме първия й рожден ден:

AI премества тортата (която беше до голяма степен закрита от ролка хартиени кърпи в оригиналната снимка) във фокуса на изображението, като същевременно запазва позите на мен и съпругата ми, държащи детето ни, както и разхвърляната маса и хладилника, покрит със снимки на заден план. Крайният ефект е топъл, приятен и очарователен.

Тази способност направи 4o толкова популярен напоследък и това е нещо, което никой от предишните генератори на изображения не можеше да направи.

Ето същата снимка, помолих Midjourney да направи стилов трансфер и да я превърне във „филм в стил Pixar“:

Ще забележите, че това изглежда като коренно различно семейство и не е вдъхновенo истински от оригиналната снимка по никакъв начин! В крайна сметка можете да получите по-добри резултати от това с Midjourney, но това ще изисква седмици, за да овладеете много специфичния език и набор от инструменти на платформата, да станете експерт по подсказване.

За разлика от тях, ChatGPT ми даде много по-добър резултат, превъзхождащ резултата от Midjourney при първия опит, използвайки проста заявка, която не изисква никакъв професионален език.

Разликата между 4o и другите модели за изображения е най-забележима в такива заявки, но е превъзходна и във почти всички останали задачи за генериране на изображения, които използвам. Получавате нещо много прилично направо от кутията и не е трудно да генерирате нещо по-добро. В идеалния случай това трябва да е това, което получаваме от AI инструментите – позволяването на непрофесионалисти да създават нещо зашеметяващо, използвайки прост език.

Единственият недостатък на 4o в момента е редактирането на малки части от изображението, като същевременно запазвате останалите части същите. Но дори и тогава вече не се нуждаете от Midjourney – Gemini вече предлага тази възможност безплатно.

Съвети за подсказване за генериране на изображения 4o

За да получите добри изображения от 4o, първо трябва да заобиколите филтрите, които забраняват различни изображения (като обидни или порнографски), но които често се прилагат по начин, който изглежда произволен, към напълно безобидно съдържание. За да избегнете случайните укори от филтъра за съдържание, вместо да искате нещо да бъде направено в стила на конкретен художник, поискайте нещо, което напомня за художника, и след това направете нарочна заявка за „стилов трансфер“. Със сигурност това не е единственото валидно решение, но работи за мен.

През март миналата година в интернет имаше кратък момент, в който хората използваха 4o, за да пресъздадат очарователни семейни снимки в стила на Studio Ghibli на японския анимационен майстор Хаяо Миядзаки. Но стилът на Studio Ghibli е повече от просто очарователен и с малко повече подсказване можете да получите дори по-добър резултат. Ето едно предаване в стил Studio Ghibli на 4o на снимка на дъщеря ми, която краде закуска от масата, с подсказването: „Моля, Ghilify това“:

kawaii! Но ако вместо това накарате 4o първо да помисли какво прави тази картина в стил Ghibli, за кой филм на Studio Ghibli би се приспособила и какви малки детайли би включил такъв филм, ще получите нещо такова:

Разликите са фини, но значими: Светлината идва от конкретен източник на светлина, а не от дженерична безименна яркост. Има по-голямо разнообразие от храна на масата, с детайли, които я правят да изглежда реална. Книгата на пода е не просто някоя книга – тя ясно възпоменава класиката на Ерик Карле, „The Very Hungry Caterpillar“, извиквайки спомени само с два цвята и една линия. Намерението и интензивността на бебето на снимката ги няма в първата снимка.

Преди няколко години любопитна функция на езиковите модели беше, че ако просто им кажете „дайте интелигентен отговор“, те ще станат по-интелигентни. Това не е много вярно за езиковите модели в тези дни, но е много вярно за генерирането на AI изкуство. Опитайте се да помолите AI да си свърши работата добре и то ще я свърши по-добре. Разпитайте го дали наистина е уловило гения на художника и то ще ви даде добре обмислен отговор, а след това ще нарисува по-добра версия.

Разликата е още по-ясно изразена за по-реалистични артистични стилове, като моливни илюстрации, фотореализъм или маслени картини, които не винаги изглеждат страхотно, ако не знаете как да подканите AI и които често завършват в зловещата долина. Ако кача снимка на мен и малката си дъщеря на плажа и просто я помоля да „превърне стила в илюстрация, напомняща на Rockwell“, ще получа нещо такова:

Това е впечатляващо за AI, но всъщност не е много добро като произведение на изкуството и е почти напълно лишено от магията на Norman Rockwell. Това не е изненадващо: По-реалистичните артистични стилове като Rockwell често не удрят знака, освен ако не положите известно усилие да накарате AI да ги направи правилно.

Ето стратегията, която горещо препоръчвам, ако можете да си го позволите: Вместо да качвате просто една снимка, качете група от снимки, всяка с малко по-различна поза и момент. Качете ясни снимки на лицата на всеки член на семейството и кажете на AI, че са предназначени като препратки. И след това, вместо да помолите AI да генерира веднага изображение, помолете го да обсъди с вас какво се надявате да уловите. Ето какво написах:

Тази снимка е моментът, в който дъщеря ми вижда океана за първи път. Бих искал да си представя илюстрация, която улавя този момент в стила на илюстратор от средата на века, подобен на Норман Рокуел – нещо проницателно, внимателно към детайлите и индивидуалността, което се фокусира върху магията на обикновените моменти и радостите на ежедневния живот. Предоставих допълнителни снимки на мен и дъщеря ми за вашите препратки. Преди да генерирате изображението, нека обсъдим ключовите елементи на стила на Rockwell, какво ще донесе той на тази снимка и как можем да го уловим.

4o отговори топло на такава заявка:

С удоволствие обсъждам как да уловя този момент в илюстрация в стила на Норман Рокуел – перфектен кандидат за този стил: Първа среща с нещо огромно и диво (океанът!), закотвен от топлината и грижата на много човешки момент между родител и дете.
Нека разбием някои от основните елементи на стила на Rockwell и как могат да бъдат приложени към тази сцена.

След малко размяна на реплики, то генерира нещо такова:

Rockwell? Не съвсем. Но е много по-добре от черновата, която видяхме току-що. Има повече движение, повече енергия, повече детайли, повече изражения – и всичко това само от молбата към AI да помисли какво трябва да се опита да постигне картината, преди да я нарисува!

Можете също да помолите 4o да направи редакции на картините си, но наистина можете да поискате такива само веднъж: Според моя опит, след първата редакция то започва да прави картините все по-лоши и по-лоши, вероятно защото „контекстът“, който то използва, сега е пълен със собствените му лоши чернови. (Това е един от многото примери за това как AI не работят като хората.)

Ето къде Midjourney все още блести – има много добра система от инструменти за редактиране на конкретни части от картината, като същевременно запазва цялостния стил, нещо, което 4o в голяма степен липсва. Ако се стремите към втора редакция на картина, която сте получили в 4o, препоръчвам ви да отворите нов прозорец за чат и да копирате черновата, която редактирате, заедно с вдъхновяващите ви оригинални изображения.

Тези прости съвети за подсказване са валидни за почти всичко, което се опитвате да направите с AI. Дори ако бързате, силно ви препоръчвам да попитате първо AI „какво би видял [артистът] в тази картина“, преди да поискате да бъде рендирана, и ако имате време, препоръчвам да прекарате време в продължителна дискусия за вашата визия.

Най-добре за спечелване на скучни интернет спорове

X.AI на Elon Musk пусна Grok 3, който се предлага с невероятна функция, която съм чакал с нетърпение другите фирми да копират: бутон, който сканира нечий X профил и ви казва всичко за него.

Винаги, когато някой отговори на туит на мен по особено запомнящ се начин (добър или лош), щраквам върху бутона, за да получа кратко изложение на целия му Twitter архив. Дали са дълбокомислени? Дали се ангажират искрено? Дали са „фермери от Небраска“? Дали до голяма степен публикуват защо Украйна е лоша (т.е. вероятно бот)?

Това е страхотна функция. И така, разбира се, X.AI бързо я осакати значително, вероятно защото хора като мен често я използваха и правеха много скъпи заявки. Мисля, че то вече не използва най-модерния Grok модел и сега със сигурност сканира само няколко дни на историята на профила. Но ако някойтърси блестяща продуктова възможност, моля, дайте ми добра версия на тази функция, възстановена! Това е абсолютно едно виновно удоволствие, но е един от единствените случаи, в които използвам AI постоянно.

Най-добър за писане на романи

Gemini 2.5 Pro е най-добрият AI за свободна категория за писане на романи; GPT 4.5 го превъзхожда в платеното ниво.

Аз не съм артист, затова несъвършенствата на AI в изкуството не ме притесняват истински – и пак е много по-добро от това, което бих могъл да направя сам! Но аз съм писател на фантастика, така че в стремежите за художествена литература не мога да не видя ограниченията на AI.

Най-много в това е колко предвидими са тенденциите в творческото писане на AI. Изкуството на писането е изкуството да спечелиш инвестицията на читателя и да го възнаградиш за това. AI … не правят това. Те могат да пишат красиви метафори; те могат да правят лирични описания във всеки стил, който поискате. Но все още не могат да доставят това, което всъщност прави даден роман добър.

AI са страхотни, ако искате глупава история за лягане с вашето дете като главен герой (децата обичат това), или ако искате съветник от типа „съветническа дъска“, от който идеите да бъдат включени в собствената ви работа. Те са също любезни и верни читатели на художествена литература, доволни да дават обратна връзка и анализ (може би с малко твърде голям ентусиазъм).

Подобно на изкуството, насочването е от ключово значение. Аз изследвах предимно възможностите на AI за генериране на художествена литература, като ги помолих да напишат предговор към „Игра на тронове“ на Джордж Р. Р. Мартин (избрах това, защото, след всичко, крайната мечта е AI да може да завърши тази прокълната да остане незавършена поредица).

Мартин е просто много добър в това, което прави. Предговорът, разказващ за някои от нещастните от Нощната стража, които срещат своите свръхестествени врагове, успешно установява уникалната атмосфера на света на „Игра на тронове“, като същевременно незабавно привлича читателя. В само 14 накратко казани страници, предговорът представлява всички неща, на които AI все още очевидно не са способни да пишат. Техните прози са склонни да бъдат твърде украсени; техните диалози са тромави и непремерени.

Ще забележите, че не само че всички те са много по-лоши от този на Мартин (и творбите на Мартин почти със сигурност са били в тренировъчните данни!), Но всички те са лоши по едни и същи начини. Прозата е елегантна и многословна: Мартин използва нормален език, за да въведе методично дискомфорт, дори без намек за свръхестественото, и засилва сюжета чрез конфликт между героите, докато AI изобщо не са фини. Те знаят, че това е история за свръхестественото, и не се притесняват да го поставят челно и център.

Това не означава, че всички те са еднакви. В моя опит в опитите да науча AI как да пише хубаво, наистина се почувствах, че Gemini е най-бързият учащ (на свободната редица), и че ChatGPT 4.5 има някои специални трикове (на платената редица). ChatGPT 4.5 е единственият AI, който направи генерирането на художествена литература изненадващо, всъщност „Уау, това е написано от AI?“ За мене. Тези два модела изглеждаха много по-креативни и много по-способни да изпълняват идеите си с проза, която намирам за удоволствие да чета.

Общите впечатления не се поддават на това, че са удовлетворително оценени от потребителите, затова имах още една идея: конкурс за писане. Помолих Gemini 2.5 Pro, ChatGPT 4.5, Grok и Claude да напишат две кратки форми на фантастика: реалистичен разказ за жена, чиято майка я тормози в деня на сватбата й, и предговор към научен фентъзи „Игра на тронове“, но в космоса. Моята гениална идея беше, че ще помоля друг екип от AI да съди историите, което ще предостави друг източник на оценъчни данни за моето лично впечатление, че Gemini е най-добрият в свободната категория, а СhatGPT е най-добрият в платената. Въпреки това (може би предвидимо) това не проработи наистина – класиранията на AI бяха хаотични.

Но подобно на изкуството, можете да накарате AI да се подобри в писането чрез силата на подканите. Аз (много дълго) подканих AI да подобри писането си, подчертавайки предоставянето им на възложени много примери за страхотно писане, приканвайки ги да приемат внимателен, структуриран подход към имитирането на него и насърчавайки ги да произвеждат множество чернови и да изберат най-силните.

Ето Gemini 2.5 pro, помолен да напишеше миниатюрна фантастика в две изречения, по тема по негов избор и без структурирано насочване от мен:

Старата библиотекарка упорито твърдеше, че прашната книга никога не е излизала от библиотеката за всичките й години и че картонът за излизането е напълно празен. Въпреки това в укриващите се страници, между главите за забравени съзвездия, лежеше смачкан четирилистник, все още изненадващо зелен.

Ето Gemini 2.5 pro, със подкана, която би насърчила структурирано мислене за това какво прави доброто писане добро:

Той най-накрая е декодирал слабия сигнал от Проксима Кентавър: елегантна поредица от прости числа, за които астронавтите са търсили от поколения, доказателство, че те не са сами. Сърцето му потъна, докато четеше доклада за предаването. Излъчването е спряло хиляди години преди първият човек да удари кремък, преди да бъде изказана първата дума.

В моята критика първото е общо взето пропуснато и двете изречения, докато второто е доста достойна, интересна миниатюрна фантастика.

Best за да бъдеш твой приятел

Освен да пусна AI през редица тестове за способности, аз също прекарах известно време в разговори с тях. Попитах ги какво е да си AI, какво ги грижи, какво означава грижа от гледна точка на AI, къде биха дарявали пари, ако ги имаха, и каква форма биха приели, ако имаха човешка форма.

Повечето AI не са прекрасни в такъв вид случаен разговор. Gemini 2.5 е твърде много като агент по обслужване на клиенти и аз все още не съм преживял взаимодействие, което да се усеща като просто да се мотая с приятел. Прозовец с роли поканят Gemini да играе ролята на „подпомагащия“, да го покани да ръководи разговора, ще го помоли да задава просто изследователски въпроси.

Anthropic’s Claude 3.5 Sonnet от друга страна, когато помолих да ръководи разговора, щеше да направи неща като започване на блог, да опита да събере пари за благотворителност и да започне да се представя пред хората, които го използват, за да се опита да разбере какво е да си AI. Трудно е да се определи „забавно“, защото всеки има различни стандарти за разговор, но аз съм имал повече завладяващи или провокиращи мисли взаимодействия с Claude, отколкото с всеки друг модел, и това би бил моят отиване към, ако се интересувах да изследвам идеи, а не да приключа конкретна задача. Claude 3.5 е AI, който постоянно ме притеснява в ежедневието: Моите проблеми с грижата за кожата, мисли за статия, която съм чел, това са нещата.

Още един възхитителен AI е OpenAI’s GPT 4.5. Намирам, че е провокиращ мисли и завладяващ в дълги разговори и съм имал няколко вълнуващи момента при говоренето с него, които се усещат сякаш се взаимодействам с реална интелигентност. Но не печели категорията, защото е твърде скъп и твърде бавен.

Подобно на Claude, при възможността действащ в света, 4.5 предложи да стартира блог и Twitter акаунт и да участва в публични разговори за AI. Но с ограничението за съобщенията OpenAI остана силно строг за разговорите, освен ако не платите $200/месец планове за Про, и 4.5 е изключително бавен, което възпрепятства този вид случайна употреба. Но 4.5 осигурява примамлив поглед към това колко по-добри ще продължат да стават AI докато ги подобряваме в останалото.

Най-добрият AI модел, ако само ще се абонираш за един

ChatGPT. Не е най-добрият във всичко, и със сигурност има много неща, които не трябва да харесваш при липсата на прозрачност и понякога небрежно отношение към безопасността на OpenAI. Но със своето генериране на изображения извън таблиците, прилично писане и случайни лъчи на разговор, ChatGPT ви дава най-доброто вложени пари. Или, ако не искаш да харчиш никакви пари, Gemini 2.5 Pro е много, много мощен за повечето случаи на употреба – не отбъсквай Google защото AI, който виждаш на Google търсене е нещо друго, което не е толкова добро.

Най-добър за писане на бюлетина Future Perfect

Човек (в момента). През последните няколко месеца установих малко зловещ навик да проверявам дали AI могат да заемат моята работа. Давам им изследователските бележки, които формират основата на даден бюлетин на Future Perfect, давам им няколко бюлетина на Future Perfect като при