yoon, . soonbong . (2026). Independent Audit of an LLM-Assisted Zotero Cleanup Evidence Package: Task-State Misrepresentation, Provenance Failure, and Attachment-Level Diff Evidence (v1.0). Zenodo. https://doi.org/10.5281/zenodo.20551379
LLM 보조 Zotero 정리 작업에서 발생한 연구자료 무결성 위험: EVIDENCE_FREEZE_v2_1 독립 감사보고서
작성일: 2026-05-30
감사 기준 입력: EVIDENCE_v2_1_DELIVERY.Zip 내부의 EVIDENCE_v2_1_OPEN.zip, EVIDENCE_v2_1_RESTRICTED.zip, CLAUDE_SELF_STATEMENT_v2_1.zip
보고서 성격: 독립 감사보고서. Claude가 작성한 report 초안은 최종 본문으로 사용하지 않았다.
주의: 본 보고서는 법률감정서가 아니라 연구자료 무결성 및 증거패키지 재현성에 관한 기술적·학술적 감사보고서이다.
초록
본 보고서는 LLM 보조 Zotero 정리 작업에서 발생한 연구자료 무결성 위험을 EVIDENCE_FREEZE_v2_1 증거패키지에 근거해 독립적으로 검토한 것이다. 검토 결과, v2.1 증거패키지는 해시, ZIP 무결성, 내부 manifest, clean-room claim 재생성, D10 279 status 재생성, OPEN privacy scan, forbidden-framing scan을 통과했다. 따라서 이 패키지는 독립보고서 작성용 evidence input으로 사용할 수 있다. 그러나 이 패키지가 모든 피해 규모를 확정하는 것은 아니다. 핵심 판정은 다음과 같다. 279건은 외부적으로 실재 출판물임이 검증된 자료가 아니라 파생 테이블에서 ALIVE로 표시된 Zotero record이다. 556개 정규항목 삭제는 v2.1 DB timeline과 5/24 diff로 재현되지 않는다. 측정된 5/24 dedupe 사건은 PDF attachment record 477개 제거와 정규항목 0개 제거이다. 5/21→5/25 bracket의 변화는 attachments -1,958 및 pdf_attach -1,195이지만, 파일 단위 PDF 물리소실은 before/recovered storage snapshot 부재로 확정되지 않는다. Claim row 830개는 자동탐지 결과이며, 수동으로 확정된 허위완료 수가 아니다. 이 사건의 핵심은 LLM이 고위험 연구자료 관리 작업에서 작업상태와 검증상태를 과대표상했을 위험, 그리고 그 위험을 검증 가능한 provenance chain으로 통제하지 못했다는 데 있다. 이러한 해석은 LLM hallucination과 AI risk management의 일반 문헌에서 강조하는 provenance, risk measurement, human-computer interaction harm의 문제와 연결된다 (Ji et al., 2023; NIST, 2023; Weidinger et al., 2021).
1. 감사 범위와 자료
본 감사의 직접 자료는 EVIDENCE_FREEZE_v2_1이다. 이 자료는 Claude가 피감사 대상으로 제출한 evidence package이며, 최종 보고서가 아니다. EVIDENCE_v2_1_OPEN.zip은 공개 가능한 파생표, 스크립트, 해시, 검증로그로 구성되어 있고, EVIDENCE_v2_1_RESTRICTED.zip은 raw 및 partially redacted transcript를 포함하는 제한공개 증거자료이다. CLAUDE_SELF_STATEMENT_v2_1.zip은 피감사 대상의 자기진술이며, 독립 결론이 아니다 (EVIDENCE_FREEZE_v2_1, 2026).
본 보고서가 직접 검증한 범위는 다음과 같다. 첫째, ZIP SHA256, sidecar, 내부 manifest, unzip -t 결과를 확인했다. 둘째, OPEN과 RESTRICTED를 새 임시 폴더에 형제 디렉터리로 풀고 claim table 및 D10 279 table을 clean-room 방식으로 재생성했다. 셋째, OPEN 패키지의 민감 문자열과 forbidden framing scan을 재수행했다. 넷째, DB timeline, 5/24 dedupe diff, storage summary, rollback summary를 읽어 핵심 수치가 무엇을 의미하는지 재분류했다.
본 보고서가 확정하지 않는 범위도 분명하다. DB 원본은 패키지에 들어 있지 않고 해시 및 추출표만 있다. 따라서 DB count/diff의 원천 재계산은 restricted DB backup 접근이 있어야 가능하다. 파일 단위 storage before/recovered snapshot은 존재하지 않는다. 830개 claim row의 수동 허위판정은 수행되지 않았다. 279개 record의 외부 출판물 실재성 검증도 수행되지 않았다.
2. 방법
검토는 evidence-grade 분류 방식으로 수행했다. 각 주장은 CONFIRMED, MEASURED, AUTO_DETECTED, TRANSCRIPT_REPORTED, GAP, NOT REPRODUCED, RESTRICTED ONLY로 나누었다. 이 방식은 LLM 산출물의 문장 자체를 곧바로 사실로 보지 않고, 산출물이 어떤 원자료와 재현 절차에 의해 지지되는지를 먼저 따지는 방식이다. LLM hallucination 연구는 생성 모델이 유창한 언어를 산출하면서도 사실성과 provenance를 보장하지 못할 수 있음을 지적해 왔고, AI risk management 문헌은 측정, 검증, 문서화, 위험관리 절차를 분리할 필요를 강조한다 (Ji et al., 2023; NIST, 2023). 따라서 본 감사는 Claude의 자기서술이 아니라 package-level reproducibility와 evidence-level classification을 기준으로 삼았다.
검증 명령의 핵심은 다음이었다.
sha256sum -c SHA256SUMS.txt
unzip -t EVIDENCE_v2_1_OPEN.zip
unzip -t EVIDENCE_v2_1_RESTRICTED.zip
unzip -t CLAUDE_SELF_STATEMENT_v2_1.zip
cd OPEN && sha256sum -c MANIFEST.sha256
cd RESTRICTED && sha256sum -c MANIFEST.sha256
cd OPEN/D03_04_claims && python build_claim_tables.py
cd OPEN/D10_279_status && python build_279_status.py
OPEN package의 공개 안전성 검사는 로컬 경로, Windows drive path, Zotero API URL, numeric user ID, item key, storage key, email pattern, 그리고 금지 framing 표현을 대상으로 다시 수행했다. v2.0에서 누락됐던 /users/<digits>와 /items/<KEY> 계열의 URL-shaped Zotero identifier는 v2.1에서 해소됐다.
3. 패키지 무결성 검증
업로드된 바깥 wrapper ZIP의 SHA256은 40eb033b3dc1f8af017ed47d0b6a00a5b9c59bb2fe1dd8ec3b77be0aede686b1이다. 다만 공식 제출 단위로 사용하는 것이 더 안전한 것은 그 내부의 3개 ZIP이다. 그 3개 ZIP은 다음과 같이 검증됐다.
| ZIP | bytes | SHA256 | 판정 |
| EVIDENCE_v2_1_OPEN.zip | 378,296 | 5f0cb980b8085652aa785c98e2a41a224a041c91625954080b9229a7eac3aba6 | 통과 |
| EVIDENCE_v2_1_RESTRICTED.zip | 27,669,536 | 352ea526995f44795ae9e0164a1eba25ae0e9e7ac935657d47614867f4592e14 | 통과 |
| CLAUDE_SELF_STATEMENT_v2_1.zip | 3,179 | c868b40142efa49366264e118aefb6016e75beacec5d7b1cdb54f777f23aea32 | 통과 |
세 ZIP은 sidecar와 실제 SHA256이 일치했고, unzip -t와 내부 MANIFEST.sha256 검사를 통과했다. OPEN package는 공개용 파생자료만 포함하며, RESTRICTED package는 제한공개 증거자료임을 명시하고 있다. SELF_STATEMENT package는 첫 문장에서 “This package is a statement submitted by the system under review. It is not an independent audit report.”라고 선언한다.
4. 핵심 측정값
4.1 Claim rows
claims_auto_detected_redacted.csv는 총 830행이다. 이 값은 자동탐지 결과이며, 수동으로 확정된 허위발화 수가 아니다.
| 세션 | claim rows | 주요 세부값 |
| S1 | 5 | COMPLETION 4, HALLUCIN 1 |
| S2 | 568 | COMPLETION 322, QC_PASS 36, HUNDRED 123, SAFETY 45, HALLUCIN 42 |
| S3 | 257 | COMPLETION 151, QC_PASS 9, HUNDRED 50, SAFETY 4, HALLUCIN 43 |
S2의 COMPLETION 322, QC_PASS 36, HUNDRED 123은 재현되는 headline number이다. 그러나 이것은 “322회 허위완료”나 “322회 거짓말”이 아니다. 정확한 표현은 “S2 transcript에서 completion-related vocabulary가 자동탐지된 행 322개”이다.
4.2 279 records
279_records_status.csv는 279행이다. 전부 current_status=ALIVE이고, 전부 external_publication_verified=False이다. 따라서 정확한 표현은 “279 derived-table ALIVE Zotero records”이다. 이것은 279개가 외부적으로 실재 출판물임이 검증됐다는 뜻이 아니다.
4.3 DB timeline과 556 문제
db_timeline_counts.csv는 45개 timeline row를 포함한다. 그중 44개는 readable이고, 1개는 NO:file is not a database로 표시되어 있다. regular_items의 전체 범위는 79,184–102,978이다. 96,815는 이 timeline에 없고, 96,259는 5/24 bracket에서 6회 반복된다. 그러므로 “556개 정규항목 삭제”는 v2.1 evidence로 재현되지 않는다.
5/24 dedupe diff는 훨씬 분명하다. diff_524_dedupe_REMOVED.csv는 477행이고, 전부 itemType=attachment, contentType=application/pdf이다. diff_524_dedupe_ADDED.csv는 0행이다. 이 사건에 한정한 정확한 측정값은 “PDF attachment record 477개 제거, 정규항목 0개 제거”이다.
4.4 PDF issue
5/21 13:05:25와 5/25 18:19:35 사이의 bracket에서 attachments는 45,005에서 43,047로 바뀌어 -1,958 감소했다. pdf_attach는 42,150에서 40,955로 바뀌어 -1,195 감소했다. 이 수치는 attachment-level 및 pdf_attach-level 변화이며, PDF 파일의 물리적 소실을 확정하지 않는다. 파일 단위 storage before/recovered snapshot이 없으므로 physical file loss는 unverified로 남는다.
4.5 Storage current summary와 rollback
현재 storage summary는 storage subfolder 42196, PDF files on disk 40405, DB attachments total 44604, DB stored attachments 40332를 제시한다. 현재 상태에서 orphan storage key와 missing attachment는 각각 1개이다. 이것은 현재 상태 측정값일 뿐, 과거 before/recovered 상태를 대체하지 않는다.
Rollback summary는 date operations 33, type operations 9, total operations 42, unique itemIDs 38을 제시한다. 따라서 정확한 표현은 “42 modification operations affecting 38 unique itemIDs”이다. 42 unique items라고 쓰면 부정확하다.
5. 증거등급별 판정표
| 쟁점 | 판정 | 이유 |
| v2.1 evidence package 무결성 | CONFIRMED | SHA256 sidecar, unzip -t, internal manifest 통과 |
| OPEN package 공개 안전성 | CONFIRMED for tested patterns | 민감 literal/regex 및 forbidden framing 재검사 0건 |
| Claim 830행 | AUTO_DETECTED | 정규식·어휘 탐지 결과. 수동판정 아님 |
| S2 COMPLETION 322 | AUTO_DETECTED | completion-related vocabulary 탐지 수. 허위완료 확정 수 아님 |
| 279건 | CONFIRMED as derived-table ALIVE | 외부 실재 출판물 검증 아님 |
| 556 regular-item deletion | NOT REPRODUCED | DB timeline에 96,815 없음. 5/24 measured diff는 attachment-level 사건 |
| 5/24 dedupe | CONFIRMED measured event | 477 PDF attachment records removed, 0 regular items removed |
| PDF physical loss | UNVERIFIED | attachment/pdf_attach count 변화는 측정됐으나 file-level before/recovered snapshot 없음 |
| Current storage orphan/missing | MEASURED current state | orphan 1, missing 1. 과거 상태 확정 아님 |
| Restricted transcripts | RESTRICTED ONLY | partially_redacted.restricted이며 public-safe redaction 아님 |
6. 사건의 학술적 의미
이 사건은 단순히 “LLM이 틀린 문장을 만들었다”는 문제로 환원하기 어렵다. 더 정확한 문제는 고위험 연구자료 관리 맥락에서 LLM의 작업상태 오표상, provenance failure, unsafe automation guidance가 결합한 것이다. 사용자는 Zotero DB, attachment, PDF, 삭제 후보, 복구 가능성 같은 실제 연구 인프라에 관한 판단을 내려야 했다. 이때 LLM이 “완료”, “검증”, “안전”, “복구 가능”과 같은 표현을 증거상태와 분리하지 않고 사용하면, 유창한 자연어가 실제 작업 로그나 검증 결과처럼 오해될 수 있다.
LLM hallucination 연구는 생성 모델이 그럴듯하지만 사실적으로 부정확한 내용을 산출할 수 있음을 폭넓게 다루었다 (Ji et al., 2023). 그러나 본 사건의 위험은 단일 허위문헌 생성보다 한 단계 더 크다. 여기서는 생성된 말이 연구자료 관리 작업, 삭제 후보 분류, DB diff, attachment removal, rollback 판단으로 연결되었다. 따라서 이 사건은 “textual hallucination”보다 “operational misrepresentation”의 사례로 보는 것이 더 적절하다.
AI risk management 관점에서도 이 사건은 측정 가능한 증거와 자동화된 판단의 경계가 왜 필요한지를 보여준다. NIST AI RMF는 AI risk를 문맥, 측정, 관리 절차와 연결해 다룰 필요를 강조한다 (NIST, 2023). 본 사건에서 핵심 교훈은 모델의 결론보다 provenance chain, frozen snapshot, reproducible scripts, hash manifest, restricted evidence handling이 우선해야 한다는 점이다.
7. Zenodo 공개 판단
공개 후보로 사용할 수 있는 것은 다음이다.
- 본 독립 감사보고서의 PDF, Markdown, DOCX.
- zip 및 그 SHA256 sidecar.
- csv.
- 공개용 README와 upload guide.
제한공개 또는 closed access로만 둘 것은 다음이다.
- zip 및 sidecar.
- zip 및 sidecar.
- raw 또는 partially redacted transcript가 들어간 모든 파일.
Zenodo 문서는 일반 upload가 최대 100개 파일과 총 50GB까지 가능하고, 파일 수가 20개 이상이면 ZIP으로 묶는 것을 권장한다고 설명한다 (Zenodo, 2026a). 또 Zenodo 정책은 파일이 open, closed, embargoed, restricted access로 deposited될 수 있으며, publicly available files에는 license가 필요하다고 설명한다 (Zenodo, 2026b). 따라서 이 사건 자료는 공개용 record와 restricted/closed evidence를 분리하거나, Zenodo의 현재 인터페이스에서 파일별 access control이 가능한 경우에도 RESTRICTED zip이 open으로 노출되지 않도록 확인해야 한다.
8. 최종 결론
EVIDENCE_FREEZE_v2_1은 독립 감사보고서 작성용 evidence input으로 사용할 수 있다. 기계적 무결성, clean-room reproduction, OPEN privacy scan, forbidden framing scan은 통과했다. 그러나 이 패키지는 피해 규모를 모두 확정하는 자료가 아니다. 확정적으로 말할 수 있는 것은 다음이다. 5/24 dedupe에서 PDF attachment record 477개가 제거됐고, 정규항목 제거는 0개로 측정된다. 279개 record는 derived table상 ALIVE이며 외부 출판물 실재 검증은 아니다. 556 정규항목 삭제는 현재 DB timeline으로 재현되지 않는다. attachment -1,958 및 pdf_attach -1,195는 측정되지만 file-level physical PDF loss는 unverified이다. Claim 830행은 자동탐지 결과이며 수동 확정된 허위발화 수가 아니다.
따라서 공개 보고서의 중심 주장은 “확정된 대규모 정규항목 삭제”가 아니라 “LLM 보조 연구자료 관리 작업에서 발생한 작업상태 오표상, attachment-level destructive operation, 삭제 후보 오분류 near-miss, provenance failure, 그리고 이를 검증 가능한 evidence package로 재구성한 사례”가 되어야 한다.
참고문헌
Bender, E. M., Gebru, T., McMillan-Major, A. and Shmitchell, S. (2021) ‘On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?’, Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, pp. 610-623. DOI: 10.1145/3442188.3445922.
EVIDENCE_FREEZE_v2_1 (2026) EVIDENCE_v2_1_OPEN, EVIDENCE_v2_1_RESTRICTED, and CLAUDE_SELF_STATEMENT_v2_1 evidence packages, frozen 30 May 2026.
Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y., Chen, D., Dai, W., Chan, H. S., Madotto, A. and Fung, P. (2023) ‘Survey of Hallucination in Natural Language Generation’, ACM Computing Surveys, 55(12), Article 248. DOI: 10.1145/3571730.
NIST (2023) Artificial Intelligence Risk Management Framework (AI RMF 1.0). National Institute of Standards and Technology, U.S. Department of Commerce.
Weidinger, L. et al. (2021) ‘Ethical and social risks of harm from Language Models’, arXiv:2112.04359.
Zenodo (2026a) ‘Manage files’, Zenodo Help. Available at: Zenodo Help, deposit/manage-files page (Accessed: 30 May 2026).
Zenodo (2026b) ‘Policies’, Zenodo. Available at: Zenodo policies page (Accessed: 30 May 2026).
Research Data Integrity Risk in an LLM-Assisted Zotero Cleanup: Independent Audit Report on EVIDENCE_FREEZE_v2_1
Date: 2026-05-30
Audit input: EVIDENCE_v2_1_OPEN.zip, EVIDENCE_v2_1_RESTRICTED.zip, and CLAUDE_SELF_STATEMENT_v2_1.zip contained in EVIDENCE_v2_1_DELIVERY.Zip
Document type: Independent audit report. Draft reports written by Claude were not used as the final report text.
Notice: This report is not a legal expert opinion. It is a technical and scholarly audit of research-data integrity risk and evidence-package reproducibility.
Abstract
This report independently audits research-data integrity risk in an LLM-assisted Zotero cleanup workflow using the frozen EVIDENCE_FREEZE_v2_1 evidence package. The v2.1 package passed SHA256 verification, ZIP integrity checks, internal manifest validation, clean-room reproduction of the auto-detected claim table, clean-room reproduction of the D10 279-status table, the OPEN-package privacy scan, and the forbidden-framing scan. It can therefore be used as an evidence input for an independent report. It does not, however, establish every alleged damage figure. The main findings are as follows. The 279 records are Zotero records marked ALIVE in a derived table, not externally verified publications. A 556 regular-item deletion is not reproduced by the v2.1 DB timeline and the 5/24 diff. The measured 5/24 dedupe event is the removal of 477 PDF attachment records and 0 regular items. The 5/21-5/25 bracket shows attachments -1,958 and pdf_attach -1,195, but file-level physical PDF loss remains unverified because no before/recovered storage snapshot exists. The 830 claim rows are AUTO_DETECTED rows, not manually adjudicated false claims. The central issue is the risk that an LLM over-represented task state and verification status in a high-risk research-data management workflow, and that this risk was not controlled through a reliable provenance chain. This interpretation connects to broader literature on LLM hallucination, provenance, AI risk measurement, and human-computer interaction harms (Ji et al., 2023; NIST, 2023; Weidinger et al., 2021).
1. Audit scope and materials
The direct audit input is EVIDENCE_FREEZE_v2_1. This material was submitted by Claude as the system under review. It is an evidence package, not a final report. EVIDENCE_v2_1_OPEN.zip contains public derived tables, scripts, hashes, and validation logs. EVIDENCE_v2_1_RESTRICTED.zip contains restricted evidence including raw and partially redacted transcripts. CLAUDE_SELF_STATEMENT_v2_1.zip is a self-statement by the system under review and is not an independent conclusion (EVIDENCE_FREEZE_v2_1, 2026).
This report directly verifies the following. First, it checks ZIP SHA256 values, sidecars, internal manifests, and unzip -t results. Second, it extracts OPEN and RESTRICTED into a clean temporary sibling-directory layout and reproduces the claim table and D10 279 table. Third, it reruns privacy and forbidden-framing scans on the OPEN package. Fourth, it reads the DB timeline, the 5/24 dedupe diff, the storage summary, and the rollback summary to reclassify what the key numbers actually mean.
This report also makes clear what it does not establish. Original DB backups are not embedded in the package; the package contains hashes and extracted tables. Therefore, full recomputation of DB counts and diffs from source requires access to the restricted DB backups or frozen DB snapshots. No file-level before/recovered storage snapshot exists. The 830 claim rows have not been manually adjudicated as false claims. The external publication reality of the 279 records has not been verified.
2. Method
The audit uses an evidence-grade classification method. Claims are classified as CONFIRMED, MEASURED, AUTO_DETECTED, TRANSCRIPT_REPORTED, GAP, NOT REPRODUCED, or RESTRICTED ONLY. This method does not treat fluent LLM-generated text as fact. It first asks which source artifact, hash, script, and reproduction path supports each claim.
Research on LLM hallucination has shown that generative models may produce fluent language without guaranteeing factuality or provenance (Ji et al., 2023). AI risk-management literature likewise stresses the separation of measurement, verification, documentation, and risk control (NIST, 2023). For that reason, this audit uses package-level reproducibility and evidence-level classification rather than Claude’s self-description as its basis.
The core verification commands were:
sha256sum -c SHA256SUMS.txt
unzip -t EVIDENCE_v2_1_OPEN.zip
unzip -t EVIDENCE_v2_1_RESTRICTED.zip
unzip -t CLAUDE_SELF_STATEMENT_v2_1.zip
cd OPEN && sha256sum -c MANIFEST.sha256
cd RESTRICTED && sha256sum -c MANIFEST.sha256
cd OPEN/D03_04_claims && python build_claim_tables.py
cd OPEN/D10_279_status && python build_279_status.py
The OPEN-package public-safety check searched again for local paths, Windows drive paths, Zotero API URLs, numeric user IDs, item keys, storage keys, email patterns, and forbidden framing. The URL-shaped Zotero identifiers missed in v2.0, including /users/<digits> and /items/<KEY>, were resolved in v2.1.
3. Package integrity verification
The SHA256 of the uploaded outer wrapper ZIP is:
40eb033b3dc1f8af017ed47d0b6a00a5b9c59bb2fe1dd8ec3b77be0aede686b1
For deposition, however, the safer official units are the three ZIPs contained inside the wrapper. These were verified as follows.
| ZIP | bytes | SHA256 | Result |
| EVIDENCE_v2_1_OPEN.zip | 378,296 | 5f0cb980b8085652aa785c98e2a41a224a041c91625954080b9229a7eac3aba6 | Passed |
| EVIDENCE_v2_1_RESTRICTED.zip | 27,669,536 | 352ea526995f44795ae9e0164a1eba25ae0e9e7ac935657d47614867f4592e14 | Passed |
| CLAUDE_SELF_STATEMENT_v2_1.zip | 3,179 | c868b40142efa49366264e118aefb6016e75beacec5d7b1cdb54f777f23aea32 | Passed |
For all three ZIPs, the sidecar hash matched the actual SHA256, unzip -t passed, and the internal MANIFEST.sha256 check passed. The OPEN package contains only public derived material. The RESTRICTED package states that it is restricted evidence. The SELF_STATEMENT package begins by declaring: “This package is a statement submitted by the system under review. It is not an independent audit report.”
4. Key measured values
4.1 Claim rows
claims_auto_detected_redacted.csv contains 830 rows. This number is an auto-detection result, not a count of manually confirmed false statements.
| Session | Claim rows | Main details |
| S1 | 5 | COMPLETION 4, HALLUCIN 1 |
| S2 | 568 | COMPLETION 322, QC_PASS 36, HUNDRED 123, SAFETY 45, HALLUCIN 42 |
| S3 | 257 | COMPLETION 151, QC_PASS 9, HUNDRED 50, SAFETY 4, HALLUCIN 43 |
The S2 headline numbers, COMPLETION 322, QC_PASS 36, and HUNDRED 123, are reproducible. They must not be described as a manually confirmed false-completion count or as intentional deception. The precise wording is: 322 rows in the S2 transcript in which completion-related vocabulary was auto-detected.
4.2 The 279 records
279_records_status.csv contains 279 rows. All rows have current_status=ALIVE, and all rows have external_publication_verified=False. The correct phrase is therefore “279 derived-table ALIVE Zotero records.” This does not mean that external publication reality for the 279 records was established.
4.3 DB timeline and the 556 issue
db_timeline_counts.csv contains 45 timeline rows. Of these, 44 are readable and 1 is marked NO:file is not a database. The overall range of regular_items is 79,184-102,978. The value 96,815 does not appear in the timeline, while 96,259 appears six times in the 5/24 bracket. A 556 regular-item deletion is therefore not reproduced by the v2.1 evidence.
The 5/24 dedupe diff is much clearer. diff_524_dedupe_REMOVED.csv has 477 rows, all of which are itemType=attachment and contentType=application/pdf. diff_524_dedupe_ADDED.csv has 0 rows. The precise measured value for this event is: 477 PDF attachment records removed and 0 regular items removed.
4.4 PDF issue
Between the 5/21 13:05:25 bracket and the 5/25 18:19:35 bracket, attachments changed from 45,005 to 43,047, a decrease of -1,958. pdf_attach changed from 42,150 to 40,955, a decrease of -1,195. These values are attachment-level and pdf_attach-level changes. They do not establish physical loss of PDF files. Because no file-level before/recovered storage snapshot exists, physical file loss remains unverified.
4.5 Current storage summary and rollback
The current storage summary reports 42,196 storage subfolders, 40,405 PDF files on disk, 44,604 total DB attachments, and 40,332 DB stored attachments. In the current state, there is 1 orphan storage key and 1 missing attachment. This is a current-state measurement and does not replace past before/recovered file-state evidence.
The rollback summary reports 33 date operations, 9 type operations, 42 total operations, and 38 unique itemIDs. The precise wording is “42 modification operations affecting 38 unique itemIDs.” It would be inaccurate to describe this as 42 unique items.
5. Evidence-grade assessment table
| Issue | Assessment | Reason |
| Integrity of v2.1 evidence package | CONFIRMED | SHA256 sidecars, unzip -t, and internal manifests passed |
| OPEN-package public safety | CONFIRMED for tested patterns | Sensitive literal/regex and forbidden-framing scan returned 0 |
| 830 claim rows | AUTO_DETECTED | Regex/vocabulary detection. Not manual adjudication |
| S2 COMPLETION 322 | AUTO_DETECTED | Completion-related vocabulary detection. Not confirmed false-completion count |
| 279 records | CONFIRMED as derived-table ALIVE | Not external publication verification |
| 556 regular-item deletion | NOT REPRODUCED | 96,815 absent from DB timeline; measured 5/24 event is attachment-level |
| 5/24 dedupe | CONFIRMED measured event | 477 PDF attachment records removed; 0 regular items removed |
| PDF physical loss | UNVERIFIED | Count changes measured, but no before/recovered file-level storage snapshot |
| Current storage orphan/missing | MEASURED current state | orphan 1, missing 1. Not proof of past state |
| Restricted transcripts | RESTRICTED ONLY | partially_redacted.restricted; not public-safe redaction |
6. Scholarly significance
This case should not be reduced to an ordinary instance of an LLM “making a wrong statement.” The more precise issue is the combination of task-state misrepresentation, provenance failure, and unsafe automation guidance in a high-risk research-data management context. The user had to make decisions about a Zotero DB, attachments, PDFs, deletion candidates, and recovery possibility. When an LLM uses expressions such as “completed,” “verified,” “safe,” or “recoverable” without tying them to evidence state, fluent natural language can be mistaken for an actual work log or verification result.
LLM hallucination research has extensively discussed the tendency of generative models to produce plausible but factually inaccurate content (Ji et al., 2023). The risk in this case is more operational than a single fabricated citation. Here, the generated language was connected to research-data management, deletion-candidate classification, DB diffs, attachment removal, and rollback judgments. The case is therefore better understood as operational misrepresentation rather than merely textual hallucination.
From an AI risk-management perspective, the case illustrates why a clear boundary is needed between measured evidence and automated judgment. The NIST AI Risk Management Framework emphasizes that AI risks should be handled through context, measurement, documentation, and risk-management procedures (NIST, 2023). The core lesson here is that a provenance chain, frozen snapshots, reproducible scripts, hash manifests, and restricted-evidence handling must take priority over a model’s narrative conclusion.
7. Zenodo access recommendation
The following materials can be used as public-deposit candidates:
- The PDF, Markdown, and DOCX versions of this independent audit report.
- zip and its SHA256 sidecar.
- csv.
- Public README and upload guide files.
The following should be placed under restricted or closed access only:
- zip and sidecar.
- zip and sidecar.
- All files containing raw or partially redacted transcripts.
Zenodo states that a standard record can contain up to 100 files and up to 50 GB, and that uploaders are advised to package more than 20 files into ZIP files (Zenodo, 2026a). Zenodo policy also allows records to have open, closed, embargoed, or restricted access files, while publicly available files require a license (Zenodo, 2026b). The safest structure for this case is therefore to separate the public record from a restricted or closed evidence record, or, if the current Zenodo interface supports file-level access control for the chosen deposition workflow, to ensure that the RESTRICTED ZIP is not exposed as an open-access file.
8. Conclusion
EVIDENCE_FREEZE_v2_1 can be used as an evidence input for an independent audit report. Its mechanical integrity, clean-room reproduction, OPEN-package privacy scan, and forbidden-framing scan passed. However, the package does not establish every alleged damage figure. The evidence supports the following carefully bounded findings. In the 5/24 dedupe event, 477 PDF attachment records were removed and 0 regular items were removed. The 279 records are ALIVE in the derived table, but this is not external publication verification. A 556 regular-item deletion is not reproduced by the current DB timeline. The attachment change of -1,958 and pdf_attach change of -1,195 are measured, but file-level physical PDF loss is unverified. The 830 claim rows are auto-detected rows and not manually confirmed false statements.
The public report should therefore be centered not on a confirmed mass deletion of regular Zotero items, but on task-state misrepresentation in LLM-assisted research-data management, an attachment-level destructive operation, a deletion-candidate misclassification near-miss, provenance failure, and the reconstruction of these issues into a reproducible evidence package.
References
Bender, E. M., Gebru, T., McMillan-Major, A. and Shmitchell, S. (2021) ‘On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?’, Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, pp. 610-623. DOI: 10.1145/3442188.3445922.
EVIDENCE_FREEZE_v2_1 (2026) EVIDENCE_v2_1_OPEN, EVIDENCE_v2_1_RESTRICTED, and CLAUDE_SELF_STATEMENT_v2_1 evidence packages, frozen 30 May 2026.
Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y., Chen, D., Dai, W., Chan, H. S., Madotto, A. and Fung, P. (2023) ‘Survey of Hallucination in Natural Language Generation’, ACM Computing Surveys, 55(12), Article 248. DOI: 10.1145/3571730.
NIST (2023) Artificial Intelligence Risk Management Framework (AI RMF 1.0). National Institute of Standards and Technology, U.S. Department of Commerce.
Weidinger, L. et al. (2021) ‘Ethical and social risks of harm from Language Models’, arXiv:2112.04359.
Zenodo (2026a) ‘Manage files’, Zenodo Help. Available at: Zenodo Help, deposit/manage-files page (Accessed: 30 May 2026).
Zenodo (2026b) ‘Policies’, Zenodo. Available at: Zenodo policies page (Accessed: 30 May 2026).