人工智能公司Synthesia推出数字视频化身——这是它们的工作原理

币界网Publié le 2024-08-09Dernière mise à jour le 2024-08-09

币界网报道:

你曾经想要一个数字双胞胎吗?或者害怕重新录制一系列视频?就像科幻故事情节一样,总部位于伦敦的合成媒体开发公司Synthesia推出了一项服务,让客户能够创建自己的数字视频表示,他们可以在社交媒体和营销活动中使用。

Synthesia在周三的直播中首次宣布推出个人化身。Synthesia声称,这些化身可以通过网络摄像头或手机上的两分钟视频生成,尽管我发现创建它们需要更长的时间。

该公司表示,其个人AI化身可以用来制作员工培训视频、产品解释、销售和营销材料,或与客户互动。对企业的好处是,这些不同的视频可以使用相同的人工智能化身创建,而无需在全新的面对面会话中重新录制演员或员工。

然而,也有一些局限性,我将深入探讨。

防止误用

联觉认识到,创建真人高保真复制品的能力可能会被滥用,用于恶意或欺骗性目的。Synthesia告诉Decrypt,它通过以下三个原则来防止其技术被用于创建人工智能生成的deepfakes:同意、控制和协作。

Synthesia公司事务和政策主管Alexandru Voica表示:“未经他人明确同意,我们绝不会创建人工智能化身。”。“我们的平台为用户提供了一个安全的环境,确保他们的数据是安全的,他们可以控制自己的化身,并通过在创建时进行内容审核来最大限度地减少滥用。”

就Voica而言,在化身生成开始之前,用户被要求同意Synthesia Limited及其供应商收集、使用、存储和披露他们的视频和音频记录,以“验证个人化身提交”

Voica表示,Synthesia还与行业同行、政策制定者和其他人合作,为负责任地使用人工智能制定最佳实践。

沃伊卡说:“未经同意的深度伪造是网上有害内容的最大来源。”。“因为Synthesia化身不能在没有他们所代表的人的明确同意的情况下制作,所以我们不从事未经同意的deepfakes业务,这大大限制了我们平台和个人化身被滥用的可能性。”

当被问及是否有Synthesia不允许的个人化身或一般化身时,Voica表示,该公司使用先进的技术过滤器和人类内容审核来确保Synthesia不会被用来促进创建不恰当或有害的内容。

Voica告诉Decrypt:“当有人试图制作视频时,该内容将在生成之前通过我们的内容审核工作流程。”。“如果发现违反了我们的政策,视频永远不会被创建。屡次违规或严重违规也可能导致他们的帐户被禁用。”

创建您的头像

要开始使用,用户必须创建Synthesia帐户。个人化身可在“初学者”、“创建者”和“企业”级别上使用。Starter和Creator帐户的年度订阅费用分别为每月18美元至59美元。寻求企业许可的企业必须联系Synthesia以确定定价。

这个过程在我的MacBook Pro上比在我的Windows 11 PC上运行得更好,两者都使用Brave浏览器。当你准备好了,Synthesia会询问你是想直接从平台录制还是上传视频。我选择了录音。

根据Synthesia的说法,个人化身是使用一种称为自动对齐的高级循环技术创建的,该技术可以确定化身何时说话,并使身体动作更加灵敏。个人化身可用的语言包括英语、德语、法语、西班牙语、阿拉伯语、克罗地亚语、菲律宾语、希腊语、印地语、意大利语、罗马尼亚语、俄语、土耳其语和乌克兰语。

在录制之前,Synthesia建议使用安静、光线充足的环境,在段落之间停顿,不要遮住脸,使用自然的肢体语言,保持积极和微笑。

根据我使用该工具的经验,其他建议是确保相机不要太近,这样你在画面中看起来会更小。如果您决定上传视频而不是使用录音机,请使用麦克风以提高音频质量。

Synthesia会给你一个脚本来阅读,背诵大约需要三分钟。根据化身生成器的说法,完成这个过程需要一到五分钟的音频和视频。

对于可能对公司或内容创作者的品牌产生重大影响的事情来说,这个过程相对简单。

虽然上传、录制和阅读剧本的过程不到五分钟,但Synthesia表示,实际生成个人头像可能需要24小时。我的第一个视频花了大约10个小时才制作出来。之后,我提供的后续提供新脚本的视频大约需要五分钟。

这是我在Synthesia的个人头像。你怎么认为?

完成的视频的大小可以更改,以适应其上传到的平台的需求,无论是YouTube、Instagram还是TikTok。我发现,使用个人头像的新脚本生成新视频大约需要五分钟。

然而,如果不生成新的个人头像,你就无法更改你的背景、服装或外表,如上所述,这可能需要一天的时间。

虽然个人化身非常令人印象深刻,但看到自己的动画版本很奇怪,这是“恐怖谷”的一个例子。恐怖谷是指人类逼真的表现几乎太接近真实事物的地方,使其外观更加令人不安。

尽管如此,这些视频化身仍然令人印象深刻,如果观众不仔细检查,它们可能会被视为真实的。

由Ryan Ozawa编辑。

Lectures associées

Tout le monde vante l'arrivée de Noam, mais la facture des pertes d'OpenAI s'est encore alourdie

Sam Altman annonce avec enthousiasme l'arrivée de Noam Shazeer, co-auteur du Transformer, en tant que responsable de la recherche sur l'architecture chez OpenAI, saluée comme une garantie pour l'IA de pointe. Cependant, cette nomination intervient dans un contexte financier alarmant. Les résultats audités de 2025 révèlent des pertes opérationnelles de 20,92 milliards de dollars, malgré un chiffre d'affaires de 13,07 milliards. Les coûts sont faramineux : location de puissance de calcul auprès de Microsoft (10,59 milliards), R&D, inférence et marketing. Avec 9 milliards d'utilisateurs hebdomadaires mais seulement 50 millions d'utilisateurs payants, l'énorme trafic gratuit aggrave la facture de calcul. Parallèlement, OpenAI subit un exode de ses talents fondateurs (Karpathy, Sutskever, etc.) et une forte réorientation des ressources de la recherche exploratoire vers l'itération produit. L'article souligne que le recrutement coûteux de Noam Shazeer ressemble moins à une solution technique qu'à un élément narratif pour une éventuelle introduction en bourse (visant une valorisation à 1 000 milliards de dollars), visant à masquer les défis fondamentaux de rentabilité. En contraste, des concurrents comme Anthropic, axés sur les clients entreprises et une gestion stricte des coûts, approchent ou dépassent parfois OpenAI en termes d'adoption et rapportent avoir atteint leur premier trimestre rentable. Cela suggère que la profitabilité dépend davantage d'un solide modèle commercial que de génies individuels. En conclusion, bien que l'expertise de Shazeer puisse porter ses fruits dans 1 à 2 ans, OpenAI brûle actuellement des liquidités à un rythme insoutenable (37 milliards au premier trimestre 2026). Le véritable défi n'est pas l'architecture du modèle, mais l'urgence de trouver un chemin vers la viabilité financière avant que le temps ne s'épuise.

marsbitIl y a 2 mins

Tout le monde vante l'arrivée de Noam, mais la facture des pertes d'OpenAI s'est encore alourdie

marsbitIl y a 2 mins

« Posséder » ou « louer » l’intelligence ? La nouvelle question de l’entrepreneuriat en IA

La fermeture de Mythos cette semaine a relancé un débat crucial pour les entrepreneurs en IA : faut-il « louer » ou « posséder » l’intelligence artificielle qui fonde son produit ? Initialement, les modèles open source étaient surtout envisagés comme une alternative moins coûteuse aux modèles de pointe (via API). Mais l’enjeu dépasse le coût : il s’agit de contrôle. En s’appuyant sur des API externes, une startup peut rapidement lancer un service, mais elle expose son cœur de métier aux changements de tarifs, de règles, voire aux décisions de retrait du fournisseur – comme l’a rappelé Mythos. « Louer » l’intelligence, c’est comme louer un logement : pratique au début, mais avec des limites imposées par le « propriétaire ». « Posséder » l’intelligence, en revanche, ne signifie pas renoncer aux modèles avancés, mais bâtir à partir d’un modèle open source solide que l’on façonne avec ses propres données, ses flux de travail, ses connaissances métier, ses cas limites et ses critères d’évaluation. Au fil du temps, ce modèle devient un actif spécifique à l’entreprise, reflétant ses besoins réels. L’avenir de l’IA ne sera pas dominé par un seul modèle suprême, mais par plusieurs « fronts » : les grands modèles généraux, les modèles fine-tunés sur des savoirs d’entreprise, les modèles spécialisés sur des tâches précises, et des systèmes de routage orchestrant plusieurs modèles. La vraie compétition ne se jouera pas sur la puissance d’appel à une API, mais sur la capacité à faire de l’intelligence un atout propre, durable et maîtrisé. La leçon de Mythos est claire : la vraie valeur – et la vraie protection – réside dans la capacité à internaliser et personnaliser l’intelligence, pour ne plus jamais voir le sol se dérober sous son produit.

marsbitIl y a 22 mins

« Posséder » ou « louer » l’intelligence ? La nouvelle question de l’entrepreneuriat en IA

marsbitIl y a 22 mins

Tendances du marché américain (19 juin) : La prime géopolitique s'évapore après l'accord USA-Iran, les puces électroniques brillent à nouveau, le secteur de l'énergie plonge

Le jeudi, le marché américain a rebondi après le choc de la Fed, poussé par deux facteurs principaux : la signature d'un accord temporaire entre les États-Unis et l'Iran, et de nouvelles positives sur le front des semi-conducteurs. L'accord américano-iranien a ouvert le détroit d'Hormuz, conduisant à une chute des prix du pétrole brut (WTI à 74,29 $) et au retrait de la prime géopolitique. Le secteur de l'énergie a été le seul perdant majeur de la journée. Le secteur des semi-conducteurs a été le moteur de la hausse. Des annonces concernant des partenariats potentiels d'Apple et de Nvidia avec Intel, ainsi qu'une hausse des coûts de mémoire pour Apple, ont propulsé toute la chaîne de valeur (Intel, Micron, Western Digital). L'indice Philadelphia Semiconductor a bondi de plus de 6%, atteignant un record historique, confirmant la solidité du thème des dépenses en capital liées à l'IA. Sur les indices, le S&P 500 et le Nasdaq ont fortement rebondi, effaçant une grande partie des pertes de la veille. Les actions à haut bêta et de croissance ont mené la reprise. Le VIX a chuté de 11%, indiquant un apaisement rapide de la nervosité. SpaceX a poursuivi son recul sur des craintes de dilution liée à une émission obligataire potentielle. En résumé, la reprise de jeudi reposait sur un catalyseur géopolitique ponctuel et une conviction renouvelée dans la dynamique structurelle des semi-conducteurs et de l'IA. Les regards se tournent désormais vers les données PCE de la semaine prochaine pour évaluer le sentier des taux d'intérêt de la Fed, qui reste le principal facteur d'incertitude du marché.

marsbitIl y a 25 mins

Tendances du marché américain (19 juin) : La prime géopolitique s'évapore après l'accord USA-Iran, les puces électroniques brillent à nouveau, le secteur de l'énergie plonge

marsbitIl y a 25 mins

MicroStrategy tombera-t-elle dans une spirale mortelle ? Comment évoluera la macroéconomie au second semestre ?

L'investisseur en technologies de pointe Didier analyse la récente baisse du Bitcoin, liée principalement aux inquiétudes sur la stratégie financière de MicroStrategy. Pour maintenir la neutralité du nombre de bitcoins par action face à l'augmentation de ses instruments de dette privilégiés (STRC, etc.), l'entreprise pourrait devoir vendre régulièrement de petites quantités de Bitcoin pour couvrir ses flux de trésorerie. Cette anticipation d'une pression de vente continue pèse sur le marché, plus que les rachats d'ETF. Didier estime qu'une "spirale de la mort" avec le Bitcoin est improbable sans nouveau choc macroéconomique majeur. Parallèlement, l'essor de l'IA redéfinit la structure de la main-d'œuvre, le token devenant un nouveau facteur de production. Cela profite aux actions américaines de la chaîne d'approvisionnement en IA (composants, données). Les échanges cryptos se tournent vers les actions américaines, car les actifs cryptos natifs à valeur durable sont rares. Cet élargissement vers des actifs réels est une évolution naturelle. Le marché haussier des altcoins (cryptomonnaies alternatives) semble terminé, fortement impacté par la perte de liquidités après l'événement du 10/11. La liquidité se concentre désormais sur le marché américain. Concernant les perspectives macroéconomiques, l'incertitude augmente pour le second semestre 2024 (élections, introductions en bourse massives). À long terme, l'intégration de l'IA et de la blockchain reste prometteuse, marquant une transition vers une phase plus industrielle et institutionnelle pour le Web3.

marsbitIl y a 26 mins

MicroStrategy tombera-t-elle dans une spirale mortelle ? Comment évoluera la macroéconomie au second semestre ?

marsbitIl y a 26 mins

MicroStrategy entrera-t-il dans une spirale de la mort ? Quelle est la tendance macroéconomique pour le second semestre ?

Le podcast WuShuo a invité l'investisseur Didier Zheng pour discuter de la récente baisse du Bitcoin et des perspectives macro. Selon Didier, la chute du Bitcoin est principalement liée à la nouvelle stratégie financière de MicroStrategy. Pour maintenir une neutralité du nombre de bitcoins par action face à l'augmentation de ses obligations, l'entreprise pourrait devoir vendre régulièrement de petites quantités de Bitcoin pour couvrir ses flux de trésorerie, créant une pression de vente continue que le marché anticipe désormais. Bien que cela exerce une pression, une spirale de la mort avec le Bitcoin est peu probable sans choc macroéconomique majeur. Par ailleurs, Didier voit le jeton (token) comme la nouvelle main-d'œuvre à l'ère de l'IA, remplaçant progressivement le travail humain dans de nombreuses tâches d'exécution. Cela stimule la rentabilité des entreprises et explique la hausse soutenue des actions américaines dans les secteurs de l'IA comme les semi-conducteurs. La transition des bourses cryptos vers l'offre d'actions américaines est une évolution naturelle vers des actifs réels, qui pourrait à long terme bénéficier à l'écosystème blockchain en facilitant l'économie des machines. Concernant le paysage crypto, l'événement du 10/11 a gravement endommagé la liquidité du secteur, marquant probablement la fin du cycle de spéculation sur les altcoins. Les flux se redirigent vers le marché actions américain, plus liquide. Pour la macroéconomie, des incertitudes s'accumulent pour le second semestre (élections, introductions en bourse massives), mais le moteur fondamental de l'IA reste solide à long terme. L'avenir réside dans une combinaison mature de l'IA et de la blockchain, marquant la fin de l'ère de la spéculation effrénée et le début d'une phase plus institutionnelle.

链捕手Il y a 29 mins

MicroStrategy entrera-t-il dans une spirale de la mort ? Quelle est la tendance macroéconomique pour le second semestre ?

链捕手Il y a 29 mins

Trading

Spot
Futures
活动图片