Archives: 1

WaveForms AI: Duygusal Zeka Odaklı Ses Modeli Girişimi 40 Milyon Dolar Yatırım Aldı

OpenAI'nin eski ses modu lideri Alexis Conneau tarafından kurulan WaveForms AI, duygusal zekaya sahip ses modelleri geliştirmek için 40 milyon dolar tohum yatırımı aldı. Şirket, ses verilerini doğrudan işleyerek daha doğal ve empatik yapay zeka etkileşimleri hedefliyor.

WaveForms AI: Duygusal Zeka Odaklı Ses Modeli Girişimi 40 Milyon Dolar Yatırım Aldı

Kimi k1.5: OpenAI o1'e Rakip Yeni Nesil Yapay Zeka Modeli

Moonshot AI'nin Kimi k1.5 modeli, OpenAI'nin o1 modeline rakip olarak ortaya çıktı. Matematik, kodlama ve çok modlu akıl yürütme alanlarında üstün performans gösteren bu model, yapay zeka alanında yeni bir dönüm noktasıdır. Özellikle kısa zincir düşünce modelinde GPT-4o ve Claude 3.5 Sonnet'i geride bırakarak dikkat çekiyor. Şirketin şeffaflığı ve işbirliğine açık yaklaşımı, yapay genel zeka yolculuğunda önemli bir adım olarak görülüyor.

Kimi k1.5: OpenAI o1'e Rakip Yeni Nesil Yapay Zeka Modeli

Doktora Seviyesinde Süper Yapay Zeka Ajansı OpenAI Tarafından Tanıtılıyor

OpenAI'nin doktora seviyesinde süper yapay zeka ajanı, iş gücü piyasasında önemli değişikliklere yol açabilir. Meta ve Salesforce gibi şirketler, yapay zeka teknolojilerini benimseyerek iş süreçlerini yeniden yapılandırıyor. Bu yeni nesil yapay zeka ajanları, karmaşık sorunları çözme ve çeşitli sektörlerde verimliliği artırma potansiyeline sahip.

Doktora Seviyesinde Süper Yapay Zeka Ajansı OpenAI Tarafından Tanıtılıyor

OpenAI'nin 20 Dakikada Gerçek Zamanlı Yapay Zeka Ajansı Kaynak Kodu Paylaşımı

Yapay Zeka Üretimli İçerik (AIGC) alanı hızla gelişiyor ve Microsoft & OpenAI, Baidu'nun ERNIE Bot'u ve iFlytek'in Spark'ı gibi Büyük Dil Modellerinin (LLM) geliştirilmesine ve uygulanmasına odaklanıyor. Bu makale, önemli bir ilerlemeyi vurguluyor: OpenAI'nin sadece 20 dakikada geliştirilebilen gerçek zamanlı bir yapay zeka ajansının yayınlanması. Bu atılım, yapay zeka destekli uygulamalar alanında yüksek verimli geliştirme potansiyelini sergiliyor.

OpenAI'nin 20 Dakikada Gerçek Zamanlı Yapay Zeka Ajansı Kaynak Kodu Paylaşımı

Diffusion Modellerinde Çıkarım Ölçeklendirme Yeni Paradigma

Bu çalışma, çıkarım sırasında artan hesaplama kaynaklarının diffusion modellerinde örnek kalitesini önemli ölçüde artırdığını göstermektedir. Araştırmacılar, farklı doğrulayıcılar ve algoritmalar kullanarak, daha iyi gürültü arayışının, yalnızca gürültü giderme adımlarını artırmanın ötesinde bir ölçeklendirme boyutu olduğunu ortaya koymuşlardır. Ayrıca, daha küçük modellerde ölçeklendirmenin büyük modeller kadar etkili olabileceği ve hatta bazı durumlarda daha iyi performans gösterebileceği bulunmuştur. Bu bulgular, eğitim sırasında harcanan önemli hesaplama kaynaklarının, üretim sırasında daha az hesaplama ile telafi edilebileceğini ve böylece daha verimli bir şekilde daha yüksek kaliteli örnekler elde edilebileceğini göstermektedir.

Diffusion Modellerinde Çıkarım Ölçeklendirme Yeni Paradigma

OpenAI o3 Mini Yakında Çıkıyor Altman AGI Güç İhtiyaçlarını Açıkladı

Teknoloji dünyası, OpenAI'nin o3-mini modelinin birkaç hafta içinde piyasaya sürülmesini heyecanla bekliyor. OpenAI CEO'su Sam Altman'ın açıklamasıyla doğrulanan bu model, API ve web arayüzü üzerinden erişilebilir olacak. o3-mini'nin üç farklı versiyonu (yüksek, orta, düşük) aynı anda piyasaya sürülecek. o3-mini, o1-pro'nun performansını geçmese de, daha yüksek hız sunacak. Tam o3 modeli ise o1-pro'dan daha gelişmiş olacak. Ayrıca, Altman AGI'nin 872 megavatlık bir hesaplama gücü gerektireceğini belirtti.

OpenAI o3 Mini Yakında Çıkıyor Altman AGI Güç İhtiyaçlarını Açıkladı

Yeni Dikkat Mekanizması KV Önbellek Azaltma Adımı

Büyük dil modellerinin (LLM'ler) artan kullanımı ve çıkarımda yeni paradigmaların ortaya çıkması, verimli büyük ölçekli çıkarım zorluğunu ön plana çıkarmıştır. Önemli bir darboğaz, toplu iş boyutu ve dizi uzunluğuyla doğrusal olarak genişleyen ve LLM'lerin ölçeklenmesini ve genişlemesini engelleyen bir 'bellek canavarı' haline gelen geleneksel dikkat mekanizmalarındaki Anahtar-Değer (KV) önbelleğidir. MQA, GQA ve MLA gibi varyantlar bunu ele almak için ortaya çıkmış olsa da, genellikle katı bellek kısıtlamaları altında performansı korumakta zorlanırlar veya mühendislik zorlukları ve uyumluluk sorunları oluşturan karmaşıklıklar ortaya çıkarırlar. Stepes, Tsinghua Üniversitesi ve diğer kurumlardan araştırmacılar tarafından yakın zamanda yayınlanan bir makale, yeni bir dikkat mekanizması mimarisi sunmaktadır: Çok Matrisli Faktörizasyon Dikkat (MFA) ve varyantı MFA-Anahtar-Yeniden Kullanım (MFA-KR). Bu mekanizma, dil modeli çıkarımının maliyetini önemli ölçüde azaltırken aynı zamanda performansı da artırır. MFA ve MFA-KR, yalnızca MLA'yı performansta geçmekle kalmaz, aynı zamanda KV Önbellek kullanımını %93,7'ye kadar azaltırken geleneksel MHA performansıyla da eşleşir. MFA, basitlik, kolay reprodüksiyon, hiper parametrelere karşı düşük hassasiyet ve çeşitli Poz-gömme yöntemleriyle uyumluluk için tasarlanmıştır. Araştırma ekibi, dikkat mekanizmalarının genel tasarımını ve kapasitesini analiz ederek kapasiteyle ilgili iki kritik boyut belirledi. Bu analiz, yeni analitik yöntemlerin ve tasarım ilkelerinin geliştirilmesine yol açtı. Farklı MHA varyantlarını anlamak için birleştirici bir çerçeve olarak Genelleştirilmiş Çok Başlı Dikkat (GMHA) kavramını tanıttılar. Ekip ayrıca, bir çıkarım perspektifinden anahtar-değerlerin hesaplanmasını ve depolanmasını araştırdı ve model kapasitesini bir ayrışım perspektifinden inceledi. Tamamen Parametrelendirilmiş İkili Dikkat (FPBA), teorik performansın üst sınırı olarak belirlendi. MHA ve varyantlarının FPBA'nın düşük dereceli ayrışımları olduğunu buldular. Analiz, iki temsili iyileştirme şemasına odaklandı: Çoklu Sorgu Dikkat (MQA) ve Çok Başlı Gizli Dikkat (MLA). MQA, tüm dikkat başlıklarının aynı anahtar-değer parametreleri kümesini paylaştığı daha agresif bir parametre paylaşım stratejisi kullanır. Bu, bellek kullanımını azaltır, ancak modelin ifade gücünü etkileyebilir. MLA, parametre sıkıştırması için paylaşılan gizli bir alan sunar, ancak gerçek ifade gücü en küçük boyutla sınırlıdır, yani ara boyutları artırmak performansı önemli ölçüde artırmaz. MFA'nın geliştirilmesi, teorik performans sınırlarına yaklaşırken kaynak tüketimini en aza indiren bir dikkat mekanizması oluşturma hedefiyle yönlendirildi. MFA'nın tasarımında üç temel yenilik bulunmaktadır: 1. Model kapasitesini en üst düzeye çıkarmak için dikkat başlıklarının sayısını ve boyutunu önemli ölçüde artırmak. 2. Dikkat başlığı sayısını ve boyutlarını genişletirken parametre verimliliğini korumak için agresif bir düşük dereceli ayrışım stratejisi kullanmak. 3. Artan model karmaşıklığında bile bellek tüketimini minimumda tutmak için tek bir anahtar-değer başlığı tasarımı kullanmak. MFA ve diğer dikkat mekanizmalarını daha ayrıntılı analiz etmek için ekip iki temel metrik tanıttı: Toplam Etkili Derece (TER): Dikkat başlıklarının sayısı ile Başlık başına Faktörizasyon derecesinin (FRH) çarpımı. Paylaşılan Gizli Alt Uzay Boyutu (SLSD): Tüm dikkat başlıkları tarafından paylaşılan gizli uzayın boyutu. MFA, MQA'ya kıyasla daha yüksek SLSD ve TER elde eder. MLA ile karşılaştırıldığında, MFA benzer parametre bütçeleriyle daha küçük bir KV önbellek boyutu ve daha yüksek TER elde ederken, karşılaştırılabilir bir SLSD'yi korur. Geleneksel MHA ile karşılaştırıldığında, MFA'nın SLSD'si daha küçük olmasına rağmen daha yüksek bir TER'e sahiptir. Yeni mimarinin performansını daha büyük ölçeklerde değerlendirmek için 1B'den 7B'ye kadar parametreye ve 10B'den 1T'ye kadar eğitim verisine sahip modelleri test ederek kapsamlı deneyler yapıldı. MFA, geleneksel MHA ile karşılaştırılabilir ölçekleme yetenekleri göstererek daha büyük ölçeklerde bile mükemmel performansı korudu. MFA-KR biraz daha düşük performans gösterirken, ölçekleme eğilimi MHA ile aynı doğrultudaydı. MFA ve MFA-KR'nin bellek tasarrufu avantajları, model boyutuyla birlikte genişlemeye devam etti; MFA %87,5 bellek tasarrufu sağlarken MFA-KR en büyük ölçekte bellek kullanımını %6,25'e düşürdü. Ablasyon çalışmaları, MFA ve MFA-KR'nin etkinliğini doğruladı. Performans avantajları ayrıca çeşitli ana akım konumsal kodlama yöntemlerinde de doğrulandı. MFA, basit bir tasarımla önemli iyileştirmeler sunarak, ekstra mühendislik karmaşıklığı eklemeden LLM çıkarımındaki bellek darboğazını etkili bir şekilde ele almaktadır. Mevcut Transformer ekosistemine sorunsuz bir şekilde entegre olarak çeşitli senaryolarda LLM'lerin uygulamasını hızlandırır.

Yeni Dikkat Mekanizması KV Önbellek Azaltma Adımı

Evrimsel Ölçek ESM3: Protein Araştırmalarında Bir Sıçrama

Evolutionaryscale'in ESM3 modeli, 98 milyar parametre ile protein araştırmalarında devrim yaratıyor. Proteinlerin 3D yapısını ve işlevini ayrık bir alfabeye dönüştürerek, eşzamanlı olarak dizi, yapı ve işlevi işleyebiliyor. Ücretsiz API erişimi ve Yann LeCun'un desteği ile bilim dünyasına yeni bir kapı açıyor. ESM3, 5 trilyon yıllık doğal evrimi simüle edebilme yeteneği ve yeni proteinler oluşturma kabiliyeti ile tıp alanında önemli etkilere sahip olabilir.

Evrimsel Ölçek ESM3: Protein Araştırmalarında Bir Sıçrama

Microsoft'un Çığır Açan Malzeme Tasarımı AI Modeli Doğruluğu 10 Kat Artırıyor

Microsoft, inorganik malzeme oluşturmak için özel olarak tasarlanmış çığır açan büyük bir dil modeli olan MatterGen'i tanıttı. Bu yenilikçi model, difüzyon modeli mimarisi üzerine inşa edilmiştir ve atom türlerini, koordinatlarını ve periyodik kafesleri aşamalı olarak optimize edebilir. Bu, çeşitli yeni inorganik malzemelerin hızlı bir şekilde üretilmesini sağlar. Potansiyelinin en önemli örneği, MatterGen'in yeni lityum iyon pil katot malzemeleri üretebileceği enerji sektöründedir. MatterGen, geleneksel malzeme keşif yöntemlerine kıyasla, kararlı, benzersiz ve yeni malzemelerin oranını iki kattan fazla artırır. Ayrıca, üretilen yapılar Yoğunluk Fonksiyonel Teorisi (DFT) yerel enerji minimumlarına yaklaşık on kat daha yakındır. Bu da MatterGen'i elektrikli araçlar, havacılık ve elektronik çipler gibi yüksek teknoloji sektörleri için paha biçilmez bir araç haline getirir. MatterGen'in yetenekleri, yapay genel zekaya (AGI) doğru bir ilerleme olduğunu gösteriyor ve iklim değişikliği gibi küresel sorunların ele alınması için umut vaat ediyor. MatterGen'in kalbinde, parçacıkların yüksek konsantrasyonlu bölgelerden düşük konsantrasyonlu bölgelere eşit bir dağılıma ulaşana kadar hareket ettiği fiziksel olgudan ilham alan difüzyon süreci yer alır. Malzeme tasarımında bu süreç, tamamen rastgele bir başlangıç durumundan düzenli ve kararlı bir kristal yapı oluşturmak için uyarlanmıştır. Eşdeğer puan ağı, MatterGen'de bir diğer hayati bileşendir. Difüzyon sürecinden orijinal kristal yapısını kurtarmayı öğrenir. Adaptör modülleri, MatterGen'e esneklik sağlamak için çeşitli alt görevler için ince ayar yapmayı sağlar. Microsoft bu araştırmayı Nature'da yayınlamıştır ve önde gelen teknoloji uzmanlarından geniş çaplı beğeni toplamıştır. Geçen yıl Kimya Nobel Ödülü'nü alan bir protein tahmin modeli olan Google'ın AlphaFold serisiyle karşılaştırılıyor.

Microsoft'un Çığır Açan Malzeme Tasarımı AI Modeli Doğruluğu 10 Kat Artırıyor

Stanford ve UC Berkeley'den ChatGPT Performansında Düşüş Çalışması

Stanford Üniversitesi ve UC Berkeley araştırmacılarının Harvard Data Science Review'da yayınladığı 'ChatGPT'nin Zaman İçindeki Davranışı' başlıklı makale, GPT-3.5 ve GPT-4'ün performansında üç aylık bir dönemde önemli dalgalanmalar olduğunu ortaya koydu. Çalışma, matematiksel problem çözme, kod üretimi, çok adımlı bilgi yoğun soru yanıtlama ve ABD Tıp Lisanslama Sınavı dahil yedi görevde bu modelleri inceledi. GPT-4'ün asal sayıları belirleme doğruluğu Mart ayında %84 iken Haziran ayında %51'e düştü. Ayrıca, talimatlara uyma konusunda da düşüşler gözlemlendi. Bu durum, ChatGPT'nin tutarlılığı ve güvenilirliği açısından zorluklar yaratmaktadır.

Stanford ve UC Berkeley'den ChatGPT Performansında Düşüş Çalışması