Trả lời nhanh
Hầu hết người đọc có thể học nhận ra ChatGPT trong một đoạn đơn lẻ sau khi thấy mẫu được nêu tên một lần. Hướng dẫn này trình bày 12 chữ ký cụ thể, tại sao chúng xuất hiện, Claude và Gemini so sánh ra sao, và nơi các dấu hiệu gây nhầm lẫn. Để kiểm tra một đoạn so với cùng các tín hiệu mà giáo viên dùng, hãy dán nó vào Công Cụ Phát Hiện AI của chúng tôi.
Tại Sao ChatGPT Có Chữ Ký Phong Cách
ChatGPT viết theo cách của nó vì một lý do. OpenAI huấn luyện mô hình trên một lát cắt rộng của văn bản internet và sách, rồi tinh chỉnh nó với Học Tăng Cường từ Phản Hồi của Con Người (RLHF). Người đánh giá liên tục ưa các phản hồi lịch sự, cân bằng, có cấu trúc và dè dặt. Mô hình học viết theo cách đó theo mặc định.
Cùng ưu tiên RLHF cho đầu ra hữu ích và vô hại đã huấn luyện mô hình dùng từ vựng an toàn, đối xứng cẩn thận và giọng lịch sự. Kết quả là văn bản đọc thành thạo nhưng dễ đoán. Dấu vân tay xuất hiện qua GPT-3.5, GPT-4 và GPT-4o, với mỗi phiên bản mới hơi ít rõ ràng hơn nhưng không bao giờ vô hình.
12 Dấu Hiệu ChatGPT
1. Nghiện Gạch Ngang Dài
ChatGPT thích ký tự gạch ngang dài. Các mẫu đầu ra GPT-4 độc lập trung bình hai đến bốn gạch ngang dài mỗi 500 từ. Văn viết bậc đại học điển hình có dưới một. Tìm các cụm chêm được tách ra bằng gạch ngang dài ở nơi dấu phẩy hoặc dấu chấm có thể làm được việc.
2. Mở Đầu Bằng Certainly! Hoặc I'm Here to Help
ChatGPT không thể ngừng lịch sự. Khi được giao một nhiệm vụ, nó thường mở đầu bằng Certainly!, Of course!, Absolutely!, hoặc I'm here to help. Ngay cả khi đề bài yêu cầu một bản nháp chứ không phải câu trả lời trò chuyện, dấu vết của giọng trợ lý vẫn lọt vào. Một bài luận trang trọng mở đầu bằng một dòng khẳng định gần như luôn là một bản dán từ ChatGPT.
3. Delve Into
Động từ delve hiếm trong tiếng Anh thông tục. Đến năm 2024 nó được đại diện quá mức trong đầu ra ChatGPT đến nỗi các nhà nghiên cứu dùng riêng tần suất của nó như một tín hiệu AI yếu. Nếu một đoạn 500 từ dùng delve into một lần, có thể là trùng hợp. Hai lần là đáng ngờ. Ba lần là một dấu vân tay.
4. Tapestry Of
Một họ hàng gần của delve. ChatGPT với tới tapestry để mô tả bất cứ thứ gì phức tạp hoặc liên kết: a tapestry of experiences, a tapestry of cultures, a rich tapestry of voices. Ẩn dụ thì có chức năng nhưng mô hình dựa vào nó mạnh hơn nhiều so với người viết là con người.
5. Navigating the Complexities
Cụm navigating the complexities (hoặc navigating the challenges, navigating the nuances) xuất hiện khoảng một trong hai mươi bài luận ChatGPT về các chủ đề xã hội. Đó là một sự dè dặt báo hiệu chiều sâu mà không cam kết với một tuyên bố cụ thể. Người viết là con người bản ngữ thường chọn một động từ cụ thể.
6. In Today's Digital Age
Gần như bất kỳ đề bài nào về công nghệ, xã hội hoặc văn hóa kích hoạt in today's digital age như một câu mở đầu. Các biến thể gồm in our increasingly connected world và in the modern era. Cụm này không mang thông tin. Nó tồn tại để làm mềm mô hình vào đoạn mở đầu của nó.
7. Ngôn Ngữ Dè Dặt
ChatGPT dè dặt liên tục. It could be argued that, one might say, some experts believe, this could be seen as. Sự dè dặt là dấu vết RLHF: người đánh giá ưa các câu trả lời không cam kết với tuyên bố mạnh. Kết quả là văn xuôi nghe cẩn thận nhưng hiếm khi đưa ra lập trường.
8. Độ Dài Đoạn Đồng Đều
Các đoạn ChatGPT tập trung quanh ba đến năm câu mỗi đoạn. Mở một phản hồi năm đoạn và đo: hầu hết các đoạn sẽ nằm trong vòng một câu của nhau. Người viết là con người dao động từ đoạn một dòng đến đoạn mười dòng tùy theo sự nhấn mạnh. Nhịp điệu máy đếm nhịp của ChatGPT là một trong những dấu hiệu phi từ vựng ồn ào nhất.
9. Cấu Trúc Danh Sách
Khi nghi ngờ, ChatGPT gạch đầu dòng. Ngay cả các phản hồi văn xuôi cũng bị ngắt bởi danh sách đánh số hoặc gạch đầu dòng, đôi khi cho ba mục mà đọc hay hơn dưới dạng một câu đơn. Gemini tệ hơn ở khía cạnh này, nhưng ChatGPT vẫn cao hơn nhiều so với mức cơ sở con người.
10. Lập Luận Đối Xứng
Mọi tuyên bố đều nhận một phản biện. On one hand, on the other hand, while X is true, Y must also be considered. Sự đối xứng nhất quán đến mức các nhà nghiên cứu đã dùng sự cân bằng lập luận như một dấu vân tay mô hình. Người viết là con người thường chọn một phía.
11. Kết Thúc Bằng In Conclusion
Một bài luận của con người thật hiếm khi dùng đúng cụm in conclusion. ChatGPT dùng nó như một chuyển tiếp kết thúc mặc định. Các biến thể gồm to sum up, in summary, ultimately. Đoạn kết sau đó nhắc lại phần mở đầu thay vì thêm hiểu biết mới.
12. Giọng Quá Lịch Sự Ở Mọi Đăng Ký
Dù đề bài yêu cầu một tweet châm biếm, một thư xin việc trang trọng, hay một bài blog thân mật, ChatGPT mặc định một giọng lịch sự, trung lập, chuyên nghiệp. Sự châm biếm chân thật, ý kiến sắc bén và sự bực bội không dè dặt hiếm trong đầu ra mặc định. Sự phẳng lặng là điểm lộ. Người viết thật có tâm trạng. ChatGPT có một tâm trạng.
ChatGPT vs Claude vs Gemini: Khác Biệt Phong Cách
Ba mô hình tiên phong lớn chia sẻ mức cơ sở độ bùng nổ thấp và lặp từ vựng, nhưng mỗi cái có dấu vân tay riêng.
- ChatGPT: Dài dòng, nhiều gạch ngang dài, hay dè dặt, mở đầu lịch sự, delve và tapestry, kết thúc in conclusion.
- Claude: Nhịp điệu chu đáo, ít cụm sáo rỗng cố định, nhiều tự sửa hơn (ví dụ actually, on reflection), vẫn độ dài đoạn đồng đều, ưa dấu phẩy hơn gạch ngang dài.
- Gemini: Đánh số, nhiều bảng, hướng danh sách, thường mở đầu bằng một câu trả lời trực tiếp một dòng rồi gạch đầu dòng, dấu vân tay cấu trúc mạnh.
- Cả ba chia sẻ: Độ bùng nổ thấp, lặp từ vựng trong vòng 500 từ, lập luận đối xứng, ví dụ chung chung.
Phát Hiện GPT-4 vs GPT-3.5
GPT-3.5 phô bày các dấu hiệu của nó. Cấu trúc bài luận năm đoạn, hai delve, bốn gạch ngang dài, và một kết thúc in conclusion xuất hiện trong một bản nháp 500 từ điển hình. GPT-4 khó hơn. Việc dùng gạch ngang dài giảm nhẹ, dè dặt tinh tế hơn, và các cụm sáo rỗng xuất hiện ít thường xuyên hơn. GPT-4o làm mềm các câu mở đầu lịch sự thêm nữa.
Nhưng tín hiệu thống kê sâu vẫn ở lại. Độ bùng nổ vẫn thấp. Độ dài đoạn vẫn đồng đều. Việc dùng gạch ngang dài vẫn cao. Certainly! vẫn lọt vào. Các nhà nghiên cứu chạy phát hiện chuẩn trên GPT-4o (Mitchell và cộng sự cùng công trình tiếp theo năm 2024) phát hiện các công cụ phát hiện mạnh nhất vẫn gắn cờ văn bản GPT-4o cao hơn mức cơ sở con người nhiều. Các dấu hiệu di cư, nhưng chúng không biến mất.
Demo Trực Tiếp: Chạy Văn Bản Này Qua Công Cụ Phát Hiện Của Chúng Tôi
Đây là một mẫu 110 từ do GPT-4 viết từ lời nhắc write a short paragraph about remote work:
In today's digital age, remote work has fundamentally transformed the way professionals navigate the complexities of their careers. While it offers a tapestry of benefits, including increased flexibility and the ability to delve into a healthier work-life balance, it also presents challenges, such as feelings of isolation and difficulty separating personal and professional life. Companies must adopt robust frameworks to support their distributed teams, leveraging communication tools and fostering a culture of trust. Ultimately, the future of work is ever-evolving, and organizations that embrace this shift while addressing its complexities will thrive in an increasingly interconnected world. In conclusion, remote work is here to stay.
Dán đoạn đó vào Công Cụ Phát Hiện AIcủa chúng tôi và kết quả trả về Gần Như Chắc Chắn Là AI trong chưa đến một giây. Công cụ phát hiện gắn cờ sáu cụm sáo rỗng (in today's digital age, navigating the complexities, tapestry of, delve into, robust framework, leveraging, ever-evolving, in conclusion), độ bùng nổ thấp (các câu tập trung giữa 18 và 28 từ), và sự đối xứng cấu trúc (giới thiệu, liệt kê lợi ích, liệt kê thách thức, kết luận). Mỗi cái là một dấu hiệu từ danh sách ở trên.
Khi Nào Các Dấu Hiệu Này Gây Nhầm Lẫn
12 dấu hiệu tạo ra dương tính giả trong ba thể loại đáng chú ý.
- Tóm tắt học thuật. Tóm tắt tạp chí trang trọng, dè dặt, đối xứng và đầy từ vựng an toàn. Chúng trông giống ChatGPT vì chúng được viết theo cùng các ràng buộc: ngắn gọn, cân bằng và trung lập.
- Tài liệu kỹ thuật và pháp lý. Đặc tả, biên bản chính sách và biên bản pháp lý đề cao dè dặt và đối xứng một cách có chủ ý. Một điểm AI cao trên một hợp đồng thường là dương tính giả.
- Người viết tiếng Anh không phải bản ngữ. Liang và cộng sự (Stanford 2023) phát hiện công cụ phát hiện GPT gắn cờ 61% bài luận TOEFL của người viết tiếng Anh không phải bản ngữ là do AI tạo ra. Từ vựng trang trọng, đối xứng cẩn thận và dè dặt là đặc trưng của tiếng Anh học thuật ngôn ngữ thứ hai.
12 dấu hiệu đáng tin cậy nhất trên bài luận học sinh, bản nháp blog, bài đăng xã hội, nội dung tiếp thị và thư từ cá nhân. Dùng chúng như tín hiệu để điều tra, không phải bằng chứng tự thân. Nếu bạn là giáo viên hoặc biên tập viên, hãy kết hợp nhiều dấu hiệu trước khi rút ra kết luận. Nếu bạn là người viết lo lắng về dương tính giả, đọc hướng dẫn đồng hành của chúng tôi về cách nhân cách hóa văn bản AI để biết các kỹ thuật sửa tín hiệu nền tảng, không chỉ các từ bề mặt.
Kiểm Tra 30 Giây
Khi bạn nghi ngờ ChatGPT viết một thứ gì đó, hãy chạy cái này theo thứ tự.
- Đếm ký tự gạch ngang dài trong 200 từ đầu.
- Quét tìm delve, tapestry, navigating, in today's digital age.
- Đo sự biến thiên độ dài đoạn. Cụm chặt quanh 3 đến 5 câu là một tín hiệu.
- Tìm lập luận đối xứng và cụm in conclusion.
- Dán văn bản vào Công Cụ Phát Hiện AI miễn phí của chúng tôi để chấm cùng các tín hiệu tự động.
Hai hay ba khớp trong 30 giây là đủ để nhận diện đầu ra ChatGPT một cách đáng tin cậy. Thêm một điểm phát hiện cao và vụ việc về cơ bản được khép lại.
Nguồn
- Mitchell, E., Lee, K., Khazatsky, A., Manning, C.D., & Finn, C. (2023). DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature. Stanford University.
- Gehrmann, S., Strobelt, H., & Rush, A.M. (2019). GLTR: Statistical Detection and Visualization of Generated Text. Harvard NLP / MIT-IBM Watson AI Lab.
- OpenAI (2024). GPT-4 System Card and GPT-4o Technical Report.
- Anthropic (2024). Claude 3 Model Family Documentation and Constitutional AI Principles.