Tuyệt vời! Với vai trò là một chuyên gia kỹ thuật Prompt, tôi sẽ phân tích chi tiết mẫu prompt bạn cung cấp theo cấu trúc yêu cầu.
1. Phân tích Cấu trúc Prompt
Mẫu prompt này được thiết kế để yêu cầu mô hình AI thực hiện một tác vụ trích xuất thông tin cụ thể từ một đầu vào là “hình ảnh danh thiếp”. Cấu trúc của prompt bao gồm các thành phần chính sau:
- Yêu cầu hành động chính: “Trích xuất các thông tin liên hệ sau từ hình ảnh danh thiếp được cung cấp”. Phần này định hướng rõ ràng cho mô hình biết nhiệm vụ cần thực hiện.
- Danh sách các trường thông tin cần trích xuất: `[TÊN_NHÂN_VIÊN]`, `[CHỨC_DANH]`, `[TÊN_CÔNG_TY]`, `[EMAIL_LIÊN_HỆ]`, `[SỐ_ĐIỆN_THOẠI]`. Đây là các biến (placeholder) đại diện cho từng loại thông tin cụ thể mà người dùng mong muốn nhận về. Mô hình sẽ cố gắng tìm kiếm và điền các giá trị tương ứng vào các trường này.
- Định dạng đầu ra: “Trình bày kết quả dưới dạng danh sách có gạch đầu dòng.” Phần này quy định cách thức mô hình nên sắp xếp và hiển thị thông tin đã trích xuất, đảm bảo tính rõ ràng và dễ đọc.
2. Ý nghĩa & Cách hoạt động
Mẫu prompt này hoạt động dựa trên nguyên tắc ra lệnh và cung cấp ngữ cảnh cho mô hình ngôn ngữ lớn (LLM) hoặc mô hình xử lý hình ảnh có khả năng hiểu văn bản. Khi bạn cung cấp một hình ảnh danh thiếp, mô hình sẽ:
- Phân tích hình ảnh: Đầu tiên, mô hình cần có khả năng “nhìn” và xử lý hình ảnh. Nếu là mô hình đa phương thức (multimodal), nó có thể trực tiếp phân tích nội dung hình ảnh. Trong trường hợp mô hình chỉ xử lý văn bản, thì quá trình này thường bao gồm việc chuyển đổi hình ảnh thành văn bản thông qua công nghệ Nhận dạng ký tự quang học (OCR – Optical Character Recognition).
- Hiểu yêu cầu: Mô hình đọc và hiểu các chỉ dẫn trong prompt, bao gồm danh sách các trường thông tin cần tìm.
- Đối chiếu và Trích xuất: Dựa trên văn bản đã OCR hoặc khả năng phân tích trực tiếp hình ảnh, mô hình sẽ tìm kiếm và so khớp các thông tin trong ảnh với từng loại thông tin được liệt kê trong prompt (Tên, Chức danh, Công ty, Email, Số điện thoại).
- Định dạng kết quả: Cuối cùng, mô hình sẽ tổ chức các thông tin đã trích xuất theo yêu cầu định dạng là danh sách có gạch đầu dòng.
Các biến như `[TÊN_NHÂN_VIÊN]` là các điểm neo (anchor points) để mô hình hiểu rõ loại dữ liệu bạn đang tìm kiếm. Việc sử dụng ngoặc vuông thường ngụ ý đây là các tham số hoặc thông tin cần được điền vào.
3. Ví dụ Minh họa
Giả sử chúng ta có một hình ảnh danh thiếp với nội dung sau (đã được OCR):
Tên: Nguyễn Văn A
Chức danh: Giám Đốc Marketing
Công ty: ABC Corporation
Email: nguyenvana@abccorp.com
Điện thoại: 0901 234 567
Nếu áp dụng mẫu prompt trên với hình ảnh chứa nội dung như trên, kết quả mong đợi có thể là:
Ví dụ 1:
Trích xuất các thông tin liên hệ sau từ hình ảnh danh thiếp được cung cấp: [TÊN_NHÂN_VIÊN], [CHỨC_DANH], [TÊN_CÔNG_TY], [EMAIL_LIÊN_HỆ], [SỐ_ĐIỆN_THOẠI]. Trình bày kết quả dưới dạng danh sách có gạch đầu dòng.
Kết quả:
* Tên nhân viên: Nguyễn Văn A
* Chức danh: Giám Đốc Marketing
* Tên công ty: ABC Corporation
* Email liên hệ: nguyenvana@abccorp.com
* Số điện thoại: 0901 234 567
Ví dụ 2 (Trường hợp một số thông tin bị thiếu hoặc không rõ ràng):
Trích xuất các thông tin liên hệ sau từ hình ảnh danh thiếp được cung cấp: [TÊN_NHÂN_VIÊN], [CHỨC_DANH], [TÊN_CÔNG_TY], [EMAIL_LIÊN_HỆ], [SỐ_ĐIỆN_THOẠI]. Trình bày kết quả dưới dạng danh sách có gạch đầu dòng.
(Giả sử hình ảnh chỉ có Tên, Email và Số điện thoại)
Kết quả:
* Tên nhân viên: Trần Thị B
* Chức danh: (Không xác định)
* Tên công ty: (Không xác định)
* Email liên hệ: tranthib@example.com
* Số điện thoại: 0398 765 432
👉 Tóm lại
Mẫu prompt này là một ví dụ rõ ràng về cách yêu cầu mô hình trích xuất thông tin có cấu trúc từ dữ liệu hình ảnh. Nó kết hợp yêu cầu hành động, định nghĩa các trường dữ liệu cụ thể bằng cách sử dụng biến, và quy định định dạng đầu ra. Sự rõ ràng và chi tiết này giúp mô hình hiểu chính xác mục tiêu và trình bày kết quả một cách hiệu quả, làm cho nó trở thành một công cụ hữu ích cho các tác vụ tự động hóa xử lý danh thiếp hoặc các tài liệu tương tự.