Was looking at a ICLR 2025 Oral paper and I am shocked it got oral [D]
Um usuário expressa choque com um artigo oral do ICLR 2025, criticando sua metodologia de avaliação para geração de código SQL por LLMs. O artigo supostamente usou métricas de linguagem natural em vez de métricas de execução, resultando em uma taxa de falsos positivos de aproximadamente 20%.