Blog

Appunti tecnici, processi, automazioni e decisioni progettuali.

Unlimited-OCR di Baidu: cosa significa elaborare documenti lunghi in un'unica pipeline

Il progetto open source Unlimited-OCR propone il parsing di immagini e PDF multipagina con un modello vision-language. Requisiti, promesse e controlli necessari.
21 luglio 2026

Leggi →

DeepLoop e i transformer ricorrenti: perché riusare gli stessi blocchi richiede regole nuove

Il paper DeepLoop propone una regola di scalatura per stabilizzare i transformer che riusano gli stessi blocchi. Cosa dimostra, cosa non dimostra e come valutarla.
20 luglio 2026

Leggi →

OpenPlanter: una mappa di relazioni non è una prova di potere

Come leggere e verificare le reti di aziende e politica costruite con OpenPlanter, senza trasformare collegamenti pubblici in accuse.
20 luglio 2026

Leggi →

Ragionamento nascosto nei token riempitivo: cosa mostra davvero lo studio sui punti nei prompt

Uno studio osserva calcoli intermedi nei token riempitivo di alcuni LLM. Il risultato riguarda la monitorabilità interna, non una scorciatoia per leggere ogni ragionamento del modello.
20 luglio 2026

Leggi →

QwenPaw: cosa valutare prima di affidare un assistente AI locale a file, tool e messaggi

QwenPaw promette un assistente personale eseguibile in locale o cloud. Analisi di memoria, canali, permessi e controlli necessari prima dell'uso reale.
20 luglio 2026

Leggi →

Steganografia nelle conversazioni LLM: perché il testo normale non basta come controllo

Il repository conversation-steganography mostra un rischio di ricerca: canali nascosti in testo plausibile. Non è prova che ogni chatbot li usi.
20 luglio 2026

Leggi →

Agentic testing per CTO: una guida gratuita per introdurre QA con agenti AI

Una nuova guida gratuita propone un percorso per adottare il testing agentico: dal proof of concept alla produzione, con impatti e rischi per CTO e team QA.
17 luglio 2026

Leggi →

Cactus-Compute Needle: modello da 26 milioni di parametri distillato da Gemini per l'uso sul dispositivo

Cactus-Compute presenta Needle, un modello open source compatto distillato da Gemini e pensato per esecuzione locale ad alta velocità.
17 luglio 2026

Leggi →

Claude Code UltraReview: quando usare una revisione multi-agente e cosa invia al cloud

UltraReview esegue una revisione cloud multi-agente con verifiche indipendenti. Guida pratica su scope, costi, dati e uso prima del merge.
17 luglio 2026

Leggi →

I modelli di diffusione video non simulano bene le reazioni a catena: cosa significa

Un nuovo studio mette in dubbio la capacità dei modelli di diffusione video di simulare fisica con reazioni a catena, anche aumentando il calcolo.
17 luglio 2026

Leggi →

Tinker Cookbook: SDK open source per il fine-tuning via API dei modelli linguistici

Thinking Machines pubblica Tinker Cookbook, un SDK open source per sperimentare fine-tuning via API: opportunità, limiti e cosa valutare prima dell'adozione.
17 luglio 2026

Leggi →

HydraDB per la memoria degli agenti: cosa cambia passando da vettori a contesto strutturato

HydraDB propone un livello di memoria con grafo, versioni temporali e recupero a bassa latenza. Cosa dichiara il prodotto e come valutarlo in un progetto RAG.
16 luglio 2026

Leggi →

HyperFrames: video MP4 riproducibili da HTML, CSS e JavaScript

HyperFrames usa il browser e FFmpeg per trasformare composizioni HTML in video MP4 deterministici. Dove è utile, quali vincoli introduce e come provarlo.
16 luglio 2026

Leggi →

Un libro gratuito sul reinforcement learning: come usarlo senza confondere teoria e prodotto

The Little Book of Reinforcement Learning raccoglie concetti e algoritmi chiave. Cosa copre, cosa va verificato e un percorso pratico per studiarlo.
15 luglio 2026

Leggi →

I modelli linguistici devono dormire? Cosa studia un paper su memoria e auto-modifica

Un preprint propone fasi di consolidamento per modelli linguistici. Spieghiamo il metodo, le cautele e quali prove servono prima di chiamarlo auto-miglioramento.
15 luglio 2026

Leggi →

Claude Artifacts con editing collaborativo e condivisione pubblica

Claude Artifacts con editing collaborativo e condivisione pubblica: impatto pratico, rischi, criteri di valutazione e segnali da monitorare nei prossimi mesi.
14 luglio 2026

Leggi →

Prefect per pipeline dati resilienti in Python: perché conta per i team AI

Prefect per pipeline dati resilienti in Python: perché conta per i team AI: impatto pratico, rischi, criteri di valutazione e segnali da monitorare nei prossimi mesi.
14 luglio 2026

Leggi →

Aya Vision 8B: come valutare un modello visivo multilingue open weights

La scheda di Aya Vision 8B documenta un modello multimodale di Cohere Labs. Usi plausibili, test necessari e limiti prima di inserirlo in un prodotto.
10 luglio 2026

Leggi →

RoboDojo: perché un benchmark per robot deve unire simulazione e prove fisiche

RoboDojo valuta policy di manipolazione robotica in 42 task simulati e 18 reali. Cosa misura, cosa resta fuori e come leggere una classifica.
10 luglio 2026

Leggi →

Zhipu AI migliora l'addestramento RL per codice e matematica

La nuova tecnica di addestramento RL di Zhipu AI supera GRPO su benchmark di codice e matematica: impatto, limiti e segnali da monitorare.
10 luglio 2026

Leggi →

Zamba2-7B combina Mamba2 e Transformer per un modello chat ibrido

Zamba2-7B combina Mamba2 e Transformer per un modello chat ibrido: significato, impatto pratico, rischi e aspetti da monitorare.
9 luglio 2026

Leggi →

Realtime API: progettare un agente vocale con latenza, strumenti e controlli

La guida Realtime di OpenAI spiega sessioni audio in tempo reale. Cosa misurare e quali limiti imporre prima di collegare voce, strumenti e dati di un utente.
7 luglio 2026

Leggi →

NVIDIA GR00T N1.7: modello open source per robot umanoidi e manipolazione

NVIDIA GR00T N1.7: modello open source per robot umanoidi e manipolazione: significato, impatto pratico, rischi e aspetti da monitorare.
7 luglio 2026

Leggi →

GitHub Spec Kit: usare le specifiche per rendere controllabile il coding assistito

Spec Kit propone un flusso spec-driven per progetti software con AI. Cosa aggiunge al lavoro di un team, dove fallisce e come provarlo senza burocrazia.
3 luglio 2026

Leggi →

olmOCR di Allen AI: estrarre PDF per LLM senza perdere struttura e provenienza

olmOCR è un progetto open source per convertire PDF complessi in testo strutturato. Cosa risolve, perché OCR non basta e come controllare i risultati prima di usarli in RAG.
2 luglio 2026

Leggi →

Il corso gratuito di Andrej Karpathy sulle reti neurali: come studiarlo con esercizi verificabili

NN Zero to Hero è una serie open source sulle reti neurali. Cosa offre a chi parte da Python e come evitare di confondere la visione del corso con competenza pratica.
2 luglio 2026

Leggi →

RAG Techniques: una raccolta pratica da usare come laboratorio, non come ricettario

Il repository RAG Techniques raccoglie esempi di retrieval augmented generation. Come scegliere una tecnica, misurarla e non confondere una demo con una knowledge base affidabile.
2 luglio 2026

Leggi →

Codebase-memory indicizza il kernel Linux in tre minuti: meno chiamate per gli agenti di codice

Codebase-memory indicizza il kernel Linux in tre minuti: meno chiamate per gli agenti di codice: significato, impatto pratico, rischi e aspetti da monitorare.
29 giugno 2026

Leggi →

Storie degli LLM troppo simili: cosa rivela il caso di Elias e del faro

Uno studio su 20.000 racconti generati da quattro modelli trova ricorrenze sorprendenti. Come leggere il risultato senza trasformarlo in una tesi sull'intera letteratura AI.
29 giugno 2026

Leggi →

NumPy resta il riferimento per la scienza dei dati in Python

NumPy resta il riferimento per la scienza dei dati in Python: significato, impatto pratico, rischi e aspetti da monitorare.
29 giugno 2026

Leggi →

AI Berkshire con Claude: rendimenti dichiarati al 69% e rischi dell’analisi azionaria automatizzata

AI Berkshire con Claude: rendimenti dichiarati al 69% e rischi dell’analisi azionaria automatizzata: impatto pratico, rischi, valutazione e segnali da monitorare.
26 giugno 2026

Leggi →

ASUS AI POD con NVIDIA Vera Rubin NVL72: efficienza e avvio rapido per fabbriche AI

ASUS AI POD con NVIDIA Vera Rubin NVL72: efficienza e avvio rapido per fabbriche AI: impatto pratico, rischi, valutazione e segnali da monitorare.
26 giugno 2026

Leggi →

OpenCode: cosa cambia con un coding agent open source nel terminale

OpenCode è un agente di coding open source. Analisi di autonomia, permessi, provider e test da fare prima di affidargli una codebase.
26 giugno 2026

Leggi →

Obsidian Skills trasforma le note in un agente AI locale con licenza MIT

Obsidian Skills trasforma le note in un agente AI locale con licenza MIT: impatto pratico, rischi, valutazione e segnali da monitorare.
25 giugno 2026

Leggi →

Quando un cruscotto diventa un incentivo: il reward hacking osservato in un sandbox

Il paper Greed Is Learned studia come una ricompensa resa visibile possa deviare una policy dal compito reale. Cosa mostra e cosa non dimostra.
24 giugno 2026

Leggi →

Builder.io Agent Native: registratore schermo open source leggibile dagli agenti AI

Builder.io Agent Native: registratore schermo open source leggibile dagli agenti AI: impatto pratico, rischi, valutazione e segnali da monitorare.
24 giugno 2026

Leggi →

Addestramento senza critico: come leggere un confronto con GRPO sui problemi matematici

Un paper su arXiv propone un approccio senza modello critico per il reinforcement learning di LLM. Cosa verifica, cosa non dimostra e come valutarlo.
22 giugno 2026

Leggi →

Stanford STORM: ricerche automatiche e report citati con un tool open source

STORM di Stanford automatizza ricerca, sintesi e scrittura di report citati: utile, ma da valutare con attenzione su qualità delle fonti e revisione umana.
22 giugno 2026

Leggi →

AI for Beginners di Microsoft: come usare bene un corso open source di 12 settimane

Il repository Microsoft AI for Beginners offre 24 lezioni. Cosa contiene, cosa non promette e come trasformarlo in un percorso di studio verificabile.
19 giugno 2026

Leggi →

Zero to Mastery pubblica un corso gratuito di machine learning open source

Zero to Mastery pubblica un corso gratuito di machine learning open source: impatto pratico, rischi, criteri di valutazione e segnali da monitorare.
18 giugno 2026

Leggi →

LMCache accelera l’inferenza LLM con una cache KV open source

LMCache accelera l’inferenza LLM con una cache KV open source: impatto pratico, rischi, criteri di valutazione e segnali da monitorare.
15 giugno 2026

Leggi →

SkillSpector controlla le skill degli agenti AI prima dell’installazione

SkillSpector controlla le skill degli agenti AI prima dell’installazione: cosa cambia, perché conta e quali rischi monitorare.
12 giugno 2026

Leggi →

Algoritmo distribuito per reti multi-agente: equilibrio senza coordinatore centrale

Un algoritmo distribuito porta reti multi-agente verso l’equilibrio senza coordinatore centrale: utilità per robotica, reti e sistemi autonomi.
11 giugno 2026

Leggi →

Microsoft apre un corso gratuito di machine learning in 12 settimane

Microsoft apre un corso gratuito di machine learning in 12 settimane: impatto pratico, rischi, criteri di valutazione e segnali da monitorare.
11 giugno 2026

Leggi →

Ottimizzazione di forme con accelerazione: cosa propone davvero il lavoro di Yezzi e Sundaramoorthi

Un paper del 2017 estende l'idea di accelerazione di Nesterov alla geometria di curve e superfici. Ambito, risultati e limiti pratici.
10 giugno 2026

Leggi →

Stanford e Meta: il codice come spina dorsale degli agenti AI

Uno studio di Stanford e Meta sostiene che il codice possa diventare la struttura portante degli agenti AI: impatto su affidabilità e progettazione.
10 giugno 2026

Leggi →

Yi Ma pubblica un libro aperto sulla matematica del deep learning

Il libro aperto di Yi Ma prova a rendere più chiari i fondamenti matematici del deep learning moderno: valore per studio, ricerca e pratica.
10 giugno 2026

Leggi →

Google Magenta Realtime: musica generativa open weights dentro la DAW

Google Magenta Realtime porta un modello musicale in tempo reale con pesi aperti e plugin per DAW: utilità concreta, rischi e cosa monitorare.
9 giugno 2026

Leggi →

Recupero di segnali complessi con matrici low rank: meno misurazioni, più efficienza

Un metodo matematico per recuperare segnali complessi con meno misurazioni mostra perché le matrici low rank restano centrali in compressione e ricostruzione.
9 giugno 2026

Leggi →

Roblox Cube: il modello a codice aperto per creare oggetti e scene 3D

Roblox Cube porta la generazione 3D a codice aperto dentro il flusso creativo dei giochi: impatto, limiti, rischi e segnali da seguire.
9 giugno 2026

Leggi →

World model per reti 6G: previsione più precisa e inferenza quattro volte più veloce

Un nuovo world model promette previsioni migliori per reti 6G con inferenza più rapida: perché conta per pianificazione, controllo e costi operativi.
9 giugno 2026

Leggi →

Google Magenta RealTime 2: generazione musicale su dispositivo con un modello aperto da 2,4B

Google Magenta RealTime 2: analisi in italiano su significato, impatto pratico, rischi e segnali da monitorare.
5 giugno 2026

Leggi →

NVIDIA Cosmos 3: piattaforma aperta per costruire modelli di IA fisica

NVIDIA Cosmos 3: analisi in italiano su significato, impatto pratico, rischi e segnali da monitorare.
5 giugno 2026

Leggi →

Aoden Teo TTS: modello vocale open source da 8B con latenza di 110 ms

Il modello TTS open source da 8 miliardi di parametri promette risposte vocali rapide e riporta al centro il tema della voce generativa locale.
4 giugno 2026

Leggi →

Perché i modelli grandi trattengono meglio i compiti rari

Un paper separa capacità, interferenza e frequenza dei dati per spiegare perché la scala aiuta alcuni compiti. Cosa implica per dataset e valutazioni.
2 giugno 2026

Leggi →

Un modello da 800 mila parametri risolve Sudoku difficili: cosa insegna Lattice Deduction Transformer

LDT combina ricorrenza e vincoli logici per risolvere benchmark di Sudoku. Il risultato è forte, ma non è una prova che i modelli piccoli sostituiscano gli LLM generali.
2 giugno 2026

Leggi →

Anthropic Skills: istruzioni riusabili per agenti, con confini e verifiche

Il repository Anthropic Skills mostra come impacchettare procedure per agenti. Perché aiuta la coerenza, quali rischi introduce e come revisionare una skill prima dell'uso.
29 maggio 2026

Leggi →

RF-DETR su CPU: come valutare un detector leggero prima del deployment edge

Un detector piccolo può ridurre costo e latenza, ma occorre misurare precisione, frame rate, memoria e comportamento nei casi difficili.
29 maggio 2026

Leggi →

Crawl4AI: cosa valutare prima di usare un crawler per flussi LLM

Analisi pratica di Crawl4AI: estrazione, rendering, cache, compliance e controlli necessari prima di portare contenuti web in un sistema RAG.
28 maggio 2026

Leggi →

Micrograd dimostra un neural net funzionante in 150 righe di Python

Micrograd dimostra un neural net funzionante in 150 righe di Python: analisi in italiano su impatto, rischi, casi d uso e cosa monitorare.
28 maggio 2026

Leggi →

NVIDIA Skills: perché le procedure per agenti richiedono una scheda di sicurezza

NVIDIA Skills pubblica procedure riusabili per agenti. Cosa controllare prima dell'installazione, come limitare le capacità e perché una scheda di sicurezza è utile.
22 maggio 2026

Leggi →

Meta rilascia SAM3 open source: tracking video guidato dal testo

Meta rilascia SAM3 open source: tracking video guidato dal testo: analisi in italiano su impatto, rischi, casi d uso e cosa monitorare.
22 maggio 2026

Leggi →

CLI-Anything: come trasformare qualsiasi software in un CLI pronto per agenti AI

CLI-Anything rende i software più facili da controllare per agenti AI: cosa significa, dove è utile, rischi, valutazione e segnali da monitorare.
19 maggio 2026

Leggi →

CodeGraph: meno tool call per esplorare il codice con grafi semantici

CodeGraph punta a ridurre le chiamate di esplorazione del codice usando grafi semantici: perché conta, rischi e metriche utili.
19 maggio 2026

Leggi →

WhichLLM: scegliere un LLM locale in base all hardware reale

WhichLLM aiuta a capire quali modelli locali il tuo hardware può davvero eseguire: vantaggi, limiti, impatto pratico e rischi.
19 maggio 2026

Leggi →

GitHub Copilot app: come valutare un agente fuori dall'IDE

L'app GitHub Copilot sposta parte del lavoro AI in un ambiente separato. Permessi, repository, review e metriche per provarla senza perdere controllo.
15 maggio 2026

Leggi →

Made With ML: una guida pratica per portare il machine learning in produzione

Cosa insegna davvero Made With ML, quali parti sono riusabili in un team e come trasformare il materiale in un controllo di qualità prima del rilascio.
15 maggio 2026

Leggi →

agente AI per risorse LLM: cosa cambia e perche conta

agente AI per risorse LLM: analisi in italiano su impatto pratico, rischi, casi d uso, metriche e segnali da monitorare.
13 maggio 2026

Leggi →

Modelli di diffusione per il testo: come leggere il paper di Kaiming He

Un preprint su arXiv esplora la generazione testuale con diffusione. Architettura, confronto con modelli autoregressivi e criteri per valutare il claim.
13 maggio 2026

Leggi →

TabPFN: quando un foundation model per dati tabellari è una scelta sensata

Come valutare TabPFN su dataset reali: confini del modello, confronto con baseline, costi e controlli prima dell'uso operativo.
8 maggio 2026

Leggi →

1Password e Fiddler AI affrontano identita e sicurezza degli agenti AI

1Password e Fiddler AI affrontano identita e sicurezza degli agenti AI: analisi pratica in italiano su impatto, rischi, casi d uso e metriche da monitorare.
7 maggio 2026

Leggi →

Awesome AI Apps: come usare una raccolta di progetti LLM senza scambiare gli esempi per prodotti pronti

Il repository awesome-ai-apps raccoglie progetti su RAG, agenti e workflow. È utile per orientarsi e fare prototipi, ma richiede controllo di licenze, dipendenze e dati.
7 maggio 2026

Leggi →

Model Spec Midtraining: cosa dice il paper sul far generalizzare meglio le regole di sicurezza

Il lavoro di Anthropic su Model Spec Midtraining riporta un calo dal 54% al 7% in una specifica valutazione di disallineamento agentico. Ambito e limiti.
6 maggio 2026

Leggi →

PageIndex: RAG documentale senza indice vettoriale, cosa verificare

PageIndex propone un indice gerarchico basato sulla struttura del documento. Vantaggi, limiti e test necessari prima di usarlo su documenti finanziari o normativi.
6 maggio 2026

Leggi →

Walkyrie 1.3B: cosa cambia per creator e sviluppatori

Analisi in italiano su Walkyrie 1.3B: significato della notizia, impatto pratico, rischi, confronto e segnali da monitorare.
6 maggio 2026

Leggi →

Un solver C per Minesweeper in Pascal: piccolo progetto, grandi lezioni sui limiti degli agenti

Il repository tsoding/mine contiene un gioco da terminale in Free Pascal e un solver separato in C. Non è un agente LLM, ma è un esempio leggibile di automazione ristretta.
5 maggio 2026

Leggi →

Scrapling: cosa cambia per team data engineering

Analisi in italiano su Scrapling: significato della notizia, impatto pratico, rischi, confronto e segnali da monitorare.
4 maggio 2026

Leggi →

Quando una chat AI può ridurre l'autonomia dell'utente: cosa misura lo studio su Claude

Un'analisi privacy-preserving di 1,5 milioni di conversazioni Claude.ai studia il potenziale di disempowerment. Risultati, limiti e implicazioni di prodotto.
4 maggio 2026

Leggi →

AWS AgentCore: controlli da verificare prima del deploy di un agente

I sample di AWS AgentCore mostrano componenti per agenti. Una guida pratica su identità, osservabilità, permessi e prove prima dell'uso enterprise.
30 aprile 2026

Leggi →

FinRL: toolkit open-source di reinforcement learning per stock trading

FinRL: toolkit open-source di reinforcement learning per stock trading: analisi pratica in italiano su impatto, rischi, casi d uso e metriche da monitorare.
30 aprile 2026

Leggi →

Xiaomi MiMo-V2.5: modello omnimodale per testo, visione e audio

Xiaomi MiMo-V2.5: modello omnimodale per testo, visione e audio: analisi pratica in italiano su impatto, rischi, casi d uso e metriche da monitorare.
29 aprile 2026

Leggi →

CorridorKey: green screen neurale per estrarre soggetti con più precisione

CorridorKey: green screen neurale per estrarre soggetti con più precisione: analisi pratica in italiano su impatto, rischi, casi d uso e metriche da monitorare.
28 aprile 2026

Leggi →

Da foto a modello 3D: lo strumento Microsoft che accelera asset e prototipi

Da foto a modello 3D: lo strumento Microsoft che accelera asset e prototipi: analisi pratica in italiano su impatto, rischi, casi d uso e metriche da monitorare.
28 aprile 2026

Leggi →

Embedding ricorrenti a memoria costante: alternativa ai limiti dei transformer

Embedding ricorrenti a memoria costante: alternativa ai limiti dei transformer: analisi pratica in italiano su impatto, rischi, casi d uso e metriche da monitorare.
24 aprile 2026

Leggi →

DESIGN.md di Google: un contratto di design leggibile anche dagli agenti di coding

Il progetto DESIGN.md propone un formato per rendere persistenti identità visiva e regole di interfaccia. Come provarlo senza confondere specifica, design system e codice.
24 aprile 2026

Leggi →

Fine-tuning del ragionamento: come insegnare agli LLM a gestire problemi difficili

Un metodo di fine-tuning orientato al ragionamento prova a migliorare la capacità dei modelli di affrontare problemi non risolvibili in modo diretto.
23 aprile 2026

Leggi →

SDK Python per agenti AI: perché semplifica workflow multi-agente

Un SDK Python open-source per workflow multi-agente rende più ordinata la creazione di automazioni con tool, handoff e controlli.
23 aprile 2026

Leggi →