Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability
ISSN: 1045-0823
ISBN: 9781956792041
Any de publicació: 2024
Proceedings of the 33rd International Joint Conference on Artificial Intelligence, IJCAI 2024
Pàgines: 385-393
Tipus: Aportació congrés