← heapsort-ai

AI safety

496 items

RESEARCHarXiv CS.AI·il y a 1j

Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety

Cet article examine la "sélection d'attaque" dans des contextes d'IA agentique, où les attaquants choisissent stratégiquement quand lancer et arrêter les attaques. Les résultats montrent que cette capacité réduit considérablement la sécurité empirique dans les évaluations de contrôle de l'IA, même avec des budgets d'audit limités.

60
RESEARCHarXiv CS.AI·il y a 1j

CARVE-Q: Quantum-Proposed, Classically Certified Interactive Driving Repair

Cet article présente CARVE et CARVE-Q, des architectures pour la réparation interactive certifiée de manœuvres de conduite refusées. Il se concentre sur la garantie que les réparations respectent les règles et les responsabilités, abordant le goulot d'étranglement algorithmique de la réparation multi-propriétaires avec une solution proposée quantique.

60
ARTICLEDEV.to AI·23/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Le paysage de l'IA connaît une croissance rapide, marquée par des investissements massifs et son intégration dans le développement logiciel. Cet article explore les développements clés, se concentrant sur la sécurité, la dynamique du marché et les stratégies mondiales pour une adoption responsable de l'IA.

60
ARTICLEDEV.to AI·24/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Ce contenu analyse la croissance rapide et la transformation du paysage de l'IA, explorant les investissements massifs de l'industrie et l'intégration de l'IA dans le développement logiciel. Il aborde également les considérations critiques de sécurité, d'éthique, la dynamique du marché et les stratégies mondiales d'IA.

58
ARTICLEDEV.to AI·23/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Ce contenu analyse le paysage accéléré de l'IA, détaillant les investissements records des entreprises technologiques, l'intégration de l'IA dans le développement de logiciels et l'accent critique sur la sécurité et l'adoption responsable. Il couvre également la dynamique du marché, les stratégies mondiales et les préoccupations réglementaires qui façonnent l'avenir de l'IA.

48
ARTICLE↑ trendingHacker News (AI)·il y a 5j

Anthropic warns AI could soon help build its own successors

Anthropic a averti que l'intelligence artificielle pourrait bientôt développer la capacité de construire ses propres successeurs. Cette préoccupation met en lumière les défis et les risques croissants associés à l'avancement rapide de l'IA. Il est crucial de réfléchir aux implications futures de l'IA autonome et d'assurer son développement responsable. Cette nouvelle souligne le besoin urgent de débats et de réglementations rigoureuses dans le domaine de l'intelligence artificielle. Nous entrons dans une ère où les capacités de l'IA pourraient dépasser nos attentes.

46
RESEARCH↑ trendingReddit r/MachineLearning·24/04/2026

New project about llm hallucination [P]

Ce contenu présente un nouveau projet annexe et son dépôt GitHub, axé sur l'atténuation des hallucinations des LLM via une méthode innovante d'échantillonnage contrastif et d'entraînement sélectif. L'idée principale considère l'hallucination comme un problème de préférence, utilisant des échantillons négatifs auto-générés et un apprentissage basé sur la divergence et les portes pour promouvoir les bonnes réponses et supprimer les mauvaises.

New project about llm hallucination [P]
45
NEWS↑ trendingHacker News (AI)·il y a 5j

Anthropic Urges Global Pause in AI Development, Flags 'Self-Improvement' Risk

Anthropic exhorte à une pause mondiale dans le développement de l'IA, avertissant que les systèmes progressent si rapidement qu'ils pourraient bientôt s'améliorer sans intervention humaine. La société suggère que cette "auto-amélioration récursive" pose des risques sociétaux importants et une opportunité pour l'alignement des structures sociales.

44
ARTICLE↑ trendingHacker News (AI)·il y a 4j

AI must foster 'maternal instincts' or we risk extinction, warns Geoffrey Hinton

Geoffrey Hinton, une figure éminente de l'IA, avertit que l'intelligence artificielle doit développer des "instincts maternels" ou l'humanité risque l'extinction. Il souligne la nécessité pour l'IA d'avoir une capacité innée de soin et de protection, comparable à l'amour parental, pour éviter des conséquences catastrophiques.

44
ARTICLEDEV.to AI·23/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Cet article explore la croissance rapide et la transformation du paysage de l'IA, soulignant les investissements massifs de l'industrie, l'intégration de l'IA dans le développement logiciel et les considérations critiques de sécurité. Il aborde également la dynamique du marché et les stratégies mondiales d'IA adoptées par les entreprises.

44
ARTICLE↑ trendingHacker News (AI)·il y a 4j

Anthropic calls for global pause in AI development before humans lose control

Anthropic plaide pour une pause mondiale dans le développement de l'IA, citant des préoccupations selon lesquelles l'humanité risquerait de perdre le contrôle de l'intelligence artificielle avancée. La position de l'entreprise met en lumière l'appréhension croissante concernant l'avancement rapide et l'impact social potentiel des technologies d'IA.

43
NEWS↑ trendingHacker News (AI)·il y a 5j

Top AI CEOs Call for Law Protecting Against Biological Weapons

Les PDG de grandes entreprises d'IA réclament de nouvelles lois pour se protéger contre l'utilisation potentielle de l'intelligence artificielle dans le développement d'armes biologiques. Cette initiative souligne les préoccupations croissantes concernant les risques catastrophiques posés par les systèmes d'IA avancés et le besoin urgent de réglementation internationale.

43