Oleh | AIX Finance, Penulis | Lei Jing, Editor | Jin Yufan
Komunitas AI baru-baru ini bergerak aktif, dan Tencent Hunyuan Hy3 preview juga secara resmi diluncurkan.
Pada 23 April, Tencent Hunyuan secara resmi merilis dan membuka sumber model bahasa generasi baru Hy3 preview. Menurut pengenalan situs web, model ini mengadopsi arsitektur hybrid expert yang menggabungkan pemikiran cepat dan lambat, dengan total parameter 295B, parameter aktif 21B, dan mendukung panjang konteks hingga 256K. Ini adalah model yang disebut resmi sebagai model Hunyuan paling cerdas hingga saat ini.
Tiga bulan lalu, Yao Shunyu bergabung dengan Tencent membawa kerangka ReAct dan pengalaman praktis dari OpenAI, memimpin penyelesaian rekonstruksi infrastruktur pra-pelatihan dan pembelajaran penguatan. Hy3 preview adalah jawaban pertama setelah rekonstruksi. Pihak resmi menyatakan bahwa model ini mengalami peningkatan signifikan dalam kemampuan penalaran kompleks, kepatuhan instruksi, pembelajaran kontekstual, generasi kode, serta kemampuan agen.
Dari data dan hasil evaluasi yang diungkapkan pihak resmi, Hy3 preview menunjukkan kemampuan yang menonjol dalam berbagai pengujian dasar, meskipun mungkin tidak mencapai tingkat teratas industri di semua dimensi, tetapi cukup untuk memenuhi kebutuhan praktis di sebagian besar skenario.
Dalam hal efisiensi operasional aktual dan stabilitas, Hy3 preview juga mengalami terobosan. Data resmi menunjukkan bahwa model ini mengurangi latensi Token pertama sebesar 54%, mengurangi waktu end-to-end sebesar 47%, secara signifikan meningkatkan kecepatan respons. Selain itu, tingkat keberhasilan tugas juga meningkat, dan telah mampu menggerakkan alur kerja Agen yang stabil, mencakup berbagai skenario bisnis seperti pemrosesan dokumen dan analisis data.
Selain itu, biaya penalarannya juga menurun. Di API Tencent Cloud, input serendah 1,2 yuan / juta Tokens, paket pribadi minimum 28 yuan / bulan, termasuk dalam kelompok harga terendah di antara model berukuran sejenis. Saat ini, Hy3 preview telah diluncurkan di produk inti Tencent seperti Tencent Cloud, Yuanbao, WorkBuddy, dll.
Selanjutnya, kami akan menguji performa model besar Hunyuan dalam aplikasi praktis berdasarkan empat arah yang disebutkan pihak resmi.
Kemampuan Penalaran: Dapat Memecahkan Logika Kompleks, Identifikasi Jebakan Masih Perlu Ditingkatkan
Kami pertama-tama menguji kemampuan penalaran model. Soal penalaran logis adalah tipe yang paling disukai netizen untuk menguji "kecerdasan" model. Pada sesi ini, kami pertama-tama menguji dengan "masalah cuci mobil" klasik di dalam Yuanbao.
Dalam soal jebakan klasik ini, Hy3 preview awalnya tidak menjawab dengan benar. Ia memberikan penalaran yang terstruktur dengan jelas untuk menyarankan berjalan kaki, tetapi mengabaikan poin penting yaitu "mencuci mobil". Setelah diingatkan lagi tentang kebutuhan mencuci mobil, barulah ia memberikan jawaban yang benar.
Perlu diperhatikan bahwa dalam uji coba netizen lain, Hy3 preview pernah dapat menjawab dengan benar secara langsung, menunjukkan bahwa stabilitas kemampuannya dalam mengidentifikasi jebakan masih kurang.
Mari kita coba lagi soal teka-teki silang. Dalam masalah ini, perlu memahami logika realitas, bahwa telur yang pecah, digoreng, dan dimakan adalah kelompok telur yang sama. Tetapi Hy3 preview tidak menyadari hal ini, ia mengira telur yang sudah digoreng masih ada dan bisa dimakan.
Kemudian, kami meningkatkan kesulitan, mengujinya dengan soal logika yang proses deduksinya lebih kompleks. Kesulitan soal ini terletak pada tidak adanya informasi lokasi, perlu mengandalkan kondisi implisit untuk melakukan eliminasi, mudah melewatkan informasi kunci.
Dalam skenario ini, Hy3 preview memberikan jawaban yang benar. Ia pertama-tama memecahkan petunjuk satu per satu, menyaring hubungan saling eksklusif antara karakter dan profesi, lalu mengunci identitas melalui metode eliminasi. Selanjutnya, ia secara berurutan menentukan kepemilikan sebagian posisi, lalu melengkapinya secara bertahap dengan menggabungkan aturan.
Secara keseluruhan, kemampuan penalaran logis rutin Hy3 preview cukup kuat, tetapi pemikiran terbalik, identifikasi jebakan, dan kemampuan berpikir fleksibel dalam skenario kehidupan masih kurang. Ketika menghadapi teka-teki silang berjenis jebakan, mudah terbatas pada logika rutin literal, mengabaikan jebakan soal dan skenario realitas, responsnya kurang baik. Namun ketika menghadapi soal penalaran logis kompleks dengan kondisi tersembunyi dan deduksi yang rumit, ia mampu memecahkan petunjuk, melakukan deduksi lapis demi lapis, kemampuan analisis logis dan deduksi bertahap tampak solid.
Pembelajaran Kontekstual dan Kepatuhan Instruksi: Mengekstrak Informasi, Performa Stabil dalam Skenario Gangguan
Sesi ini menguji dua kemampuan dasar model: apakah dapat menangkap instruksi yang sebenarnya, dan apakah dapat memahami instruksi dengan cepat.
Tencent dalam blog resminya memberikan lima skenario seperti perencanaan proyek, ringkasan perjalanan, catatan membaca, dll., kami memilih dua skenario untuk diuji.
Skenario satu: Ekstraksi informasi notulen rapat yang berantakan
Kami memberikan transkrip rekaman rapat yang kacau, tercampur dengan interupsi, keluar topik, koreksi berulang, dll., memintanya untuk mencatat tiga jenis informasi.
Jawaban yang diberikan Hy3 preview secara akurat mencantumkan tiga jenis informasi ini, kemampuan pengambilan informasinya tampak baik.
Skenario dua: Memahami dan mematuhi aturan bahasa baru
Kami menciptakan sebuah bahasa sederhana, menunjukkan aturan melalui contoh, dan memberinya tiga kalimat baru untuk diterjemahkan.
Pada ronde ini, Hy3 preview mampu menyelesaikan persyaratan terkait dengan akurat, setiap detail dapat dijalankan sesuai aturan.
Secara keseluruhan, Hy3 preview dapat memahami persyaratan instruksi, secara efektif mengesampingkan informasi gangguan, cocok untuk skenario praktis seperti gangguan informasi繁杂 dan pengambilan informasi.
Kode dan Agen: Pemanggilan Alat Cukup Matang, Kelengkapan Penyerahan Tugas Kurang
Kemampuan kode dan kemampuan agen adalah dimensi penting untuk menilai apakah asisten AI mudah digunakan. Ini menguji kedalaman pemahaman model terhadap kebutuhan pengguna, dan juga menguji kemampuan perencanaan, pemanggilan alat, dan penutupan tugas Agen dalam tugas multi-tahap. Pada sesi ini, kami merancang tiga tugas untuk WorkBuddy (asisten AI di bawah Tencent).
Tugas pertama, kami meminta WorkBuddy untuk mengambil data kondisi udara lima kota dalam satu tahun terakhir, dan menghasilkan laporan analisis berdasarkan data kualitas udara.
Dari presentasi halaman, hasilnya memenuhi syarat. Struktur bagian seperti pergantian musim, diagram radar, diagram tren, peta panas korelasi, dll. lengkap, presentasi visual teratur, dan bagan juga memiliki fungsi interaksi dasar. Ini menunjukkan bahwa kemampuannya dalam eksekusi presentasi front-end memenuhi standar.
Namun ada dua masalah utama, pertama karena terhambat pada fase pengambilan data, Hy3 preview hanya mendapatkan data efektif 224 hari, kekurangan yang mempengaruhi kredibilitas tabel berikutnya; kedua, prompt dengan jelas meminta untuk menulis kesimpulan analisis, Hy3 preview meskipun mempertahankan area bagian yang sesuai di halaman, tetapi konten sebenarnya kosong. Ini berarti, ia memiliki kesadaran penutupan tugas, tetapi kemampuan penyerahan akhir masih kurang.
Tugas kedua, kami memintanya untuk membuat game ular kecil (snake).
Hasil akhirnya cukup matang, gambar indah, logika lengkap, dapat berjalan normal. Tetapi perlu dicatat bahwa ular termasuk tugas tertutup dengan aturan jelas, kebutuhan jelas dan tidak perlu memanggil data eksternal, standar evaluasi relatif jelas, adalah skenario aplikasi yang lebih dikuasai agen. Performa WorkBuddy dalam tugas ini hanya dapat mencerminkan kemampuan dalam zona nyaman, membuktikan bahwa ia memiliki nilai praktis tertentu.
Tugas ketiga, kami meningkatkan kesulitan, memintanya untuk menganalisis tugas kompleks terbuka: menganalisis evolusi model bisnis industri AI Coding, menginventarisasi perjalanan perkembangan dari 2023 hingga sekarang, dan menemukan titik balik kunci industri serta faktor pendorong inti.
Ini adalah tugas kompleks terbuka, tidak ada jawaban standar yang seragam, kualitas hasil tergantung pada penilaian Agen, kemampuan penyaringan informasi, dan kemampuan ekspresi.
Di tingkat eksekusi, WorkBuddy mampu secara otomatis memanggil beberapa alat, pertama merevisi rencana eksekusi, lalu melaksanakan rencana, seluruh proses memakan waktu sekitar setengah jam.
Namun hasil akhirnya tidak terlalu menakjubkan, ia hanya membangun kerangka dasar, konten aktual tidak cukup solid. Dapat dilihat bahwa meskipun ia menguasai metode memecahkan masalah penelitian, ia tidak tahu bagaimana menyaring dimensi ini lebih lanjut menjadi argumen penelitian yang bernilai.
Secara keseluruhan, WorkBuddy telah memiliki kemampuan yang seharusnya dimiliki asisten pengkodean sehari-hari, tetapi dalam eksekusi mendalam tugas kompleks dan penyerahan akhir, masih ada ruang untuk peningkatan.
Percakapan Alami: Rasa AI Jelas Berkurang
Terakhir, mari kita lihat apakah Yuanbao memiliki "rasa manusia". Ronde ini diuji melalui dua skenario: percakapan santai dan penulisan kreatif.
Skenario satu: Percakapan santai
Dokumen resmi menyebutkan bahwa Hy3 preview lebih mampu memahami niat pengguna untuk mencurahkan isi hati, dapat menanggapi emosi pengguna, menghindari balasan yang bersifat menggurui dan templat.
Setelah diuji, performa Hy3 preview memang sesuai dengan posisi ini. Ia tidak langsung membuat daftar banyak saran, tetapi pertama-tama menganalisis secara objektif kemungkinan penyebab di baliknya, lalu menanyakan apakah mengalami sesuatu. Secara keseluruhan nada lembut, cukup tahu batas, memiliki rasa alami dalam percakapan santai.
Skenario dua: Penulisan kreatif
Pada sesi ini, kami merancang dua tugas, menguji narasi dan kemampuannya berekspresi.
Kami pertama-tama memintanya untuk menulis cerita di mana protagonis tidak muncul sepanjang cerita, tetapi pembaca setelah membacanya dapat mengetahui dengan jelas siapa dia, apa yang dialami, dan mengapa penting.
Hasil yang diserahkan Yuanbao, logika seluruhnya konsisten, narasi lancar, tingkat penyelesaian tinggi, hampir tidak terasa rasa templat umum penulisan AI.
Kemudian, kami memintanya lagi untuk meniru gaya tulisan "Ming Chao Na Xie Shi Nian" (Cara Menyenangkan Melihat Dinasti Ming), menulis kisah sejarah karakter dinasti lain.
AI saat menulis mudah menampilkan peniruan gaya sebagai tiruan yang kaku, hanya berhenti pada kerangka penulisan yang disalin, dan tidak dapat memahami gaya tulisan secara mendalam. Tetapi dari hasil yang dihasilkan, kemampuan peniruan gaya Hy3 preview cukup kuat, secara keseluruhan memenuhi persyaratan. Ia menangkap gaya penceritaan sejarah yang populer dari buku asli, menyajikan seluruh cerita dengan cukup baik.
Evaluasi ronde ini, yang paling mengejutkan. Secara keseluruhan, Hy3 preview dalam ekspresi bahasa alami, telah terbebas dari nada templat yang benar tetapi tidak berasa, mampu menulis teks dengan keterbacaan yang tinggi.
Kesimpulan
Setelah diuji dari empat dimensi, Hy3 preview memberikan kesan "stabil tetapi tidak mengejutkan".
Ia tidak menunjukkan performa yang mengungguli secara signifikan dalam satu hal tertentu, tetapi ia juga hampir tidak memiliki kelemahan yang jelas. Ditempatkan dalam peringkat model besar domestik secara keseluruhan, ia mungkin bukan yang paling memukau, tetapi memenuhi standar model praktis yang dapat bekerja.
Melihat lebih jauh, makna sebenarnya Hy3 preview mungkin tidak terletak pada model itu sendiri.
Dua tahun terakhir, Tencent cukup pasif di medan perang model besar. Akhir Januari tahun ini, Ma Huateng secara terbuka mengakui dalam rapat tahunan bahwa langkah AI Tencent lambat. Irama teknologi yang relatif lambat, tidak adanya model percontohan yang dapat diingat oleh pihak luar, adalah dua masalah utama yang dihadapi Tencent. Peluncuran Hy3 preview menjadi titik balik cerita AI Tencent, dan juga memberikan Tencent model AI yang dapat digunakan oleh seluruh ekosistem.
Saat ini Hy3 preview masih hanya versi preview, umpan balik komunitas sumber terbuka masih dalam pengumpulan, pengalaman panggilan aktual produk seperti Yuanbao, QQ, Tencent Docs juga masih perlu waktu untuk diuji. Menurut pengungkapan resmi, akan merilis model dengan skala parameter yang lebih besar di kemudian hari.
Setidaknya, AI Tencent telah mulai merobek label "pasif" dari dua tahun terakhir.


















