Google biến AlphaFold trở nên lỏng lẻo trên toàn bộ bộ gen của con người

Hình ảnh của một sơ đồ của ruy băng và cuộn dây.

Chỉ một tuần sau khi nhóm DeepMind AI của Google cuối cùng đã mô tả chi tiết các nỗ lực sinh học của mình, công ty sẽ phát hành một bài báo giải thích cách họ phân tích gần như mọi protein được mã hóa trong bộ gen người và dự đoán cấu trúc ba chiều có thể có của nó — một cấu trúc có thể rất quan trọng để hiểu bệnh và thiết kế phương pháp điều trị. Trong tương lai gần, tất cả các cấu trúc này sẽ được phát hành theo giấy phép Creative Commons thông qua Viện Tin học Sinh học Châu Âu, nơi đã lưu trữ một cơ sở dữ liệu chính về cấu trúc protein.

Trong một cuộc họp báo liên quan đến việc phát hành tờ báo, Demis Hassabis của DeepMind đã nói rõ rằng công ty không dừng lại ở đó. Ngoài công việc được mô tả trong bài báo, công ty sẽ đưa ra dự đoán cấu trúc cho bộ gen của 20 sinh vật nghiên cứu chính, từ nấm men, ruồi giấm đến chuột. Tổng cộng, việc khởi chạy cơ sở dữ liệu sẽ bao gồm khoảng 350.000 cấu trúc protein.

Có gì trong một cấu trúc?

Chúng tôi vừa mô tả phần mềm của DeepMind vào tuần trước, vì vậy chúng tôi sẽ không đi sâu vào chi tiết ở đây. Nỗ lực này là một hệ thống dựa trên AI được đào tạo dựa trên cấu trúc của các protein hiện có đã được xác định (thường là tốn công sức) thông qua các thí nghiệm trong phòng thí nghiệm. Hệ thống sử dụng quá trình huấn luyện đó, cộng với thông tin mà nó thu được từ các họ protein liên quan đến quá trình tiến hóa, để dự đoán cách chuỗi axit amin của protein gấp lại trong không gian ba chiều.

Cấu trúc ba chiều mà kết quả có thể cung cấp cho chúng ta thông tin quan trọng về protein, chẳng hạn như cách nó tương tác với các protein và hóa chất khác và vị trí xảy ra các phản ứng hóa học của protein. Bằng cách sử dụng cấu trúc này, các nhà nghiên cứu có thể tìm hiểu cách các đột biến cụ thể, chẳng hạn như những đột biến gây ra các bệnh di truyền, thay đổi chức năng của protein. Các nhà nghiên cứu cũng có thể sử dụng cấu trúc này để thiết kế các hóa chất có thể tương tác với protein và thay đổi chức năng của nó, điều này đã dẫn đến các liệu pháp điều trị các bệnh ung thư và HIV khác nhau.

Thông thường, các cấu trúc này được xác định bằng cách cô lập protein, chuẩn bị cho hình ảnh và bắn phá nó bằng các electron. Những kỹ thuật này rất khó và tốn thời gian, và chúng thường thất bại. Bài báo ước tính rằng hàng thập kỷ làm việc trong phòng thí nghiệm đã để lại cho chúng ta thông tin cấu trúc chỉ 17% trong tổng số protein của con người.

Điều đó giải thích tại sao các nhà nghiên cứu cũng đã dành nhiều thập kỷ để tìm cách dự đoán cấu trúc của protein mà không sử dụng gì khác ngoài trình tự các axit amin tạo nên chúng. Nhưng trước AlphaFold, độ chính xác của phần mềm không đủ cao để luôn hữu ích.

Bộ sưu tập protein của con người

DeepMind đã không cố gắng dự đoán cấu trúc của mọi protein trong bộ gen người; một số đơn giản là quá lớn để có thể xử lý thuận tiện. (Công ty đặt mức giới hạn kích thước là 2.700 axit amin, không may là nhỏ hơn một gen mà tôi đã dành một phần nhỏ để nhân bản sau tài liệu của mình.) Nhưng hầu hết các protein đều nhỏ hơn nhiều, vì vậy số lượng cuối cùng là 98,5% so với dự kiến protein trong hệ gen. Một số loại protein này chỉ được dự đoán là tồn tại dựa trên các đặc điểm của chuỗi DNA trong bộ gen người.

Cũng quan trọng không kém, AlphaFold bao gồm một ước tính độ tin cậy ghi lại khả năng các dự đoán của nó là chính xác. Tất cả đã nói, phần mềm tự tin về vị trí của khoảng 60% axit amin mà nó đã dự đoán và nó rất tự tin về vị trí của khoảng hơn một phần ba. Nói cách khác, các nhà nghiên cứu có một dự đoán tự tin về hầu hết cấu trúc của 40% protein của con người. Rõ ràng, điều đó có nghĩa là còn rất nhiều việc phải làm trước khi chúng ta có thể nói rằng chúng ta đã nắm chắc được bộ protein đầy đủ của con người. Nhưng đó vẫn là một nhiều hơn 18 phần trăm mà chúng tôi có cấu trúc thực tế.

Ngoài ra còn có một bộ sưu tập lớn các protein không được thể hiện rõ bởi các cấu trúc hiện có. Những chất được nhúng trong màng tế bào rất khó phân lập và hoạt động, vì vậy các nhà nghiên cứu chưa giải quyết được nhiều cấu trúc của các protein màng này. Nhưng mặc dù có ít ví dụ hơn trong dữ liệu đào tạo của nó, AlphaFold dường như xử lý các cấu trúc một cách hợp lý.

Do đâu mà hệ thống gặp sự cố? Nhiều protein chỉ đơn giản là không tạo thành một cấu trúc xác định – trên thực tế, chức năng của chúng dường như phụ thuộc vào việc có một cấu trúc hoàn toàn linh hoạt để hoạt động. Rõ ràng, thật khó để đưa ra bất kỳ dự đoán chính xác nào về cấu trúc ở đây, vì những protein này (điển hình hơn là các phần của protein) không có. Cũng có nhiều protein chỉ đảm nhận cấu trúc của chúng khi chúng tiếp xúc với một protein khác hoặc một chất hóa học. Vì AlphaFold không có thông tin đó nên không có nhiều thứ mà nó có thể làm được.

Nhìn chung, nhóm DeepMind phát hiện ra rằng AlphaFold có độ tin cậy rất thấp vào các dự đoán của mình đối với các vùng bị rối loạn và họ có thể sử dụng thông tin đó để xác định các vùng protein có khả năng không có cấu trúc.

Tất cả đều diễn ra công khai

Tại một thời điểm nào đó trong tương lai gần (có thể vào thời điểm bạn đọc), tất cả dữ liệu này sẽ có sẵn trên một trang web chuyên dụng do Viện Tin sinh học Châu Âu, một tổ chức do Liên minh Châu Âu tài trợ, tự mô tả một phần như sau: “Chúng tôi cung cấp miễn phí dữ liệu sinh học công khai trên thế giới cho cộng đồng khoa học thông qua một loạt các dịch vụ và công cụ. ” Dữ liệu AlphaFold sẽ không phải là ngoại lệ; khi liên kết trên hoạt động, bất kỳ ai cũng có thể sử dụng nó để tải xuống thông tin về loại protein mà họ chọn.

Hoặc, như đã đề cập ở trên, phiên bản chuột, nấm men, hoặc ruồi giấm. 20 sinh vật sẽ thấy dữ liệu của chúng được phát hành cũng mới chỉ là một bước khởi đầu. Demis Hassabis của DeepMind cho biết trong vài tháng tới, nhóm sẽ nhắm mục tiêu vào mọi chuỗi gen có sẵn trong cơ sở dữ liệu DNA. Vào thời điểm công việc này được thực hiện, hơn 100 triệu protein nên có cấu trúc dự đoán. Hassabis kết thúc phần thông báo của mình bằng cách nói, “Chúng tôi nghĩ rằng đây là đóng góp quan trọng nhất mà AI đã tạo ra cho khoa học cho đến nay.” Sẽ rất khó để tranh luận ngược lại.

Điều đó nói rằng, vẫn còn một số vấn đề cần được giải quyết. Chắc chắn sẽ có những cải tiến đối với thuật toán theo thời gian, vì vậy sẽ cần phải có một hệ thống để xử lý việc cập nhật và tạo phiên bản trong cơ sở dữ liệu chính. DeepMind cũng đã tạo mã cho mã nguồn mở AlphaFold, vì vậy có khả năng xảy ra fork và các biến chứng khác.

Nhưng những vấn đề đó là những lo lắng cho tương lai. Hiện tại, tất cả chúng ta có thể ngồi lại và xem các máy chủ đang căng thẳng để phục vụ gần như mọi nhà sinh vật học trên hành tinh, những người tò mò xem liệu một loại protein mà họ quan tâm có cấu trúc chất lượng cao hay không.

(Ngoại trừ tác giả khiêm tốn của bạn, vì protein lựa chọn của tôi quá khổ một cách khó chịu.)

Thiên nhiên, Năm 2021. DOI: 10.1038 / s41586-021-03828-1 (Giới thiệu về DOI).

Bạn cũng có thể thích

Các sản phẩm có thể gập lại mới của Samsung có thể có giá gần hơn với điện thoại tiêu chuẩn
Mercedes-Benz cho biết họ sẽ hoàn toàn chạy bằng điện vào năm 2030, nhưng có một cảnh báo lớn
Menu