
CHATGPT’YE YAZILAN HER ŞEY HUKUKEN KİŞİSEL VERİ MİDİR? BÜYÜK DİL MODELLERİNİN KVKK KAPSAMINDA DEĞERLENDİRİLMESİ
YAZAR; MERAL BALSAK (BİLİŞİM TEKNOLOJİLERİ ÖĞRETMENİ/ARAŞTIRMACI/YAZAR)
“””ChatGPT gibi büyük dil modelleri kişisel veri işliyor ise veri sorumlusu kimdir ve KVKK kapsamında ortaya çıkan hukuki yükümlülükler nasıl değerlendirilecektir?”””
1. Giriş
Endüstri 4.0 ve dijital dönüşüm sürecinin en önemli bileşenlerinden biri olan yapay zekâ teknolojileri, son yıllarda üretken yapay zekâ (Generative AI) uygulamalarının gelişmesiyle birlikte yeni bir evreye ulaşmıştır. Bu yeni dönem, yalnızca mevcut verileri analiz eden sistemlerin ötesine geçerek metin, kod, görsel ve ses gibi içerikler üretebilen yapay zekâ modellerinin yaygınlaşmasına zemin hazırlamıştır. Söz konusu teknolojik dönüşümün merkezinde ise milyarlarca parametre üzerinde eğitilen Büyük Dil Modelleri (Large Language Models – LLM) yer almaktadır.[1]
Özellikle ChatGPT’nin küresel ölçekte yaygınlaşmasının ardından Google Gemini ve Anthropic Claude gibi gelişmiş sistemlerin de kullanıma sunulması, yapay zekâ teknolojilerini araştırma laboratuvarlarının dışına taşıyarak bireysel ve kurumsal kullanımın ayrılmaz bir parçası hâline getirmiştir. Günümüzde öğrencilerden akademisyenlere, yazılım geliştiricilerden hukukçulara ve şirket yöneticilerine kadar geniş bir kullanıcı kitlesi, bu sistemlerden çeşitli amaçlarla yararlanmaktadır.
Bununla birlikte, üretken yapay zekâ sistemlerinin yaygın kullanımı önemli ölçüde veri akışını da beraberinde getirmektedir. Kullanıcılar, daha doğru ve amaca uygun sonuçlar elde edebilmek amacıyla yapay zekâ sistemlerine çeşitli içerikler aktarmakta ve bu kapsamda “prompt” olarak adlandırılan komut veya girdiler oluşturmaktadır.[2]
Bu girdiler kimi zaman genel nitelikli bilgilerden oluşurken, kimi zaman ticari sırları, kurumsal verileri, kaynak kodlarını veya gerçek kişilere ait sağlık, kimlik ve finansal bilgileri içerebilmektedir. Dolayısıyla yapay zekâ sistemlerine aktarılan verilerin niteliği, kişisel verilerin korunması hukuku bakımından önemli tartışmaları beraberinde getirmektedir.
Özellikle kullanıcılar tarafından sisteme girilen verilerin model geliştirme, hizmet kalitesini artırma veya sistem performansını iyileştirme süreçlerinde değerlendirilmesi, veri koruma hukukunun temel ilkeleri açısından yeni hukuki sorunların ortaya çıkmasına neden olmaktadır.[3]
Üretken yapay zekâ sistemlerinin veri işleme mantığı ile kişisel verilerin korunmasına ilişkin geleneksel hukuki yaklaşım arasındaki ilişki, günümüzde hem ulusal hem de uluslararası düzeyde yoğun biçimde tartışılmaktadır.
Bu bağlamda, 6698 sayılı Kişisel Verilerin Korunması Kanunu (KVKK) başta olmak üzere veri koruma mevzuatlarının öngördüğü yükümlülükler ile üretken yapay zekâ sistemlerinin dinamik veri işleme süreçleri arasındaki uyum sorunu önem kazanmaktadır. Bununla birlikte, yapay zekâ sistemlerine aktarılan her bilginin otomatik olarak kişisel veri olarak kabul edilmesi mümkün değildir. Bir verinin KVKK kapsamında korunabilmesi için belirli veya belirlenebilir gerçek kişiye ilişkin olması gerekmektedir.[4]
Bu nedenle “ChatGPT’ye yazılan her şey hukuken kişisel veri midir?” sorusu, yalnızca teknik bir değerlendirmeyi değil, aynı zamanda kişisel veri kavramının sınırlarının yapay zekâ teknolojileri bağlamında yeniden yorumlanmasını da gerekli kılmaktadır.
Bu çalışmada, ChatGPT ve benzeri büyük dil modellerine aktarılan verilerin hangi koşullar altında 6698 sayılı Kanun kapsamında kişisel veri olarak değerlendirilebileceği incelenecek; söz konusu sistemlerin gerçekleştirdiği veri işleme faaliyetlerinin hukuki niteliği, veri sorumluluğu, açık rıza, veri minimizasyonu ve sınır ötesi veri aktarımı gibi temel meseleler KVKK hükümleri çerçevesinde değerlendirilecektir.
Dipnotlar
[1] TÜBİTAK BİLGEM, Büyük Dil Modelleri ve İstem Mühendisliği Raporu, Sayı: 24, s. 12-15.
[2] Kişisel Verileri Koruma Kurumu, Üretken Yapay Zekâ Teknolojilerinin Kullanımına Yönelik Veri Sorumlularına ve Kullanıcılara Tavsiyeler Rehberi, s. 4-6.
[3] Kişisel Verileri Koruma Kurumu, Yapay Zekâ Alanında Kişisel Verilerin Korunmasına Dair Tavsiyeler, Genel İlkeler Bölümü, s. 2-3.
[4] 6698 Sayılı Kişisel Verilerin Korunması Kanunu, m. 3/1-d.
2. BÜYÜK DİL MODELLERİNİN ÇALIŞMA MANTIĞI VE VERİ İŞLEME SÜREÇLERİ
2.1. Büyük Dil Modelleri Nedir?
Büyük Dil Modelleri (Large Language Models – LLM), doğal dil işleme (Natural Language Processing – NLP) alanında geliştirilen ve insan dilini anlamak, yorumlamak ve üretmek amacıyla eğitilen yapay zekâ sistemleridir.[5]
Bu modeller, milyarlarca kelime ve cümleden oluşan geniş veri kümeleri üzerinde eğitilmekte ve istatistiksel ilişkiler aracılığıyla dil örüntülerini öğrenmektedir. ChatGPT, Gemini, Claude ve benzeri üretken yapay zekâ sistemleri bu teknolojinin güncel örnekleri arasında yer almaktadır.
LLM’lerin temel çalışma mantığı, kullanıcının sisteme girdiği metni analiz ederek kendisinden sonra gelmesi en muhtemel kelime veya kelime dizisini tahmin etmeye dayanmaktadır.[6]
Bu süreçte model, eğitim aşamasında öğrendiği dil kalıplarını kullanarak anlamlı ve bağlama uygun çıktılar üretmektedir. Dolayısıyla bu sistemler, önceden tanımlanmış cevapları sunan geleneksel yazılımlardan farklı olarak dinamik ve üretken bir yapıya sahiptir.
Büyük dil modellerinin geliştirilmesinde kullanılan eğitim verileri; internet siteleri, dijital yayınlar, kitaplar, akademik çalışmalar, açık veri kaynakları ve kullanıcı etkileşimlerinden elde edilen büyük hacimli metinlerden oluşabilmektedir.[7] Modelin doğruluk oranı ve performansı büyük ölçüde eğitildiği veri miktarına ve veri kalitesine bağlıdır.
Bu sistemlerin çalışma mantığında önemli bir kavram da “token” yapısıdır. Token, model tarafından işlenebilen en küçük anlamlı veri birimini ifade etmektedir.[8]
Bir kelime, bir kelimenin parçası, noktalama işareti veya belirli karakter grupları birer token olarak değerlendirilebilmektedir. Kullanıcı tarafından sisteme girilen her veri, öncelikle tokenlere ayrıştırılmakta ve model tarafından bu yapı üzerinden analiz edilmektedir. Bu nedenle kullanıcıların sisteme aktardığı bilgiler, teknik açıdan yalnızca bir metin girdisi olarak değil, aynı zamanda işlenebilir veri kümeleri olarak değerlendirilmektedir.
2.2. Kişisel Veriler Büyük Dil Modelleri Tarafından Nasıl İşlenmektedir?
Üretken yapay zekâ sistemleriyle gerçekleştirilen etkileşimlerin önemli bir bölümü, kişisel veri içermeleri hâlinde KVKK kapsamında veri işleme faaliyeti niteliği taşıyabilmektedir. Kullanıcı tarafından sisteme girilen komutlar, sorular, belgeler veya diğer içerikler model tarafından analiz edilmekte, işlenmekte ve buna uygun çıktılar oluşturulmaktadır. Bu süreçte sisteme aktarılan verilerin niteliği, kişisel verilerin korunması hukuku bakımından önem taşımaktadır.
Kullanıcılar çoğu zaman farkında olmaksızın yapay zekâ sistemlerine çeşitli kişisel veriler aktarabilmektedir. Örneğin bir sohbet kaydı içerisinde yer alan isimler, e-posta adresleri, telefon numaraları, kimlik bilgileri, adres bilgileri veya finansal veriler doğrudan kişisel veri niteliği taşıyabilmektedir. Benzer şekilde sağlık raporları, hasta bilgileri veya biyometrik veriler gibi özel nitelikli kişisel verilerin de yapay zekâ sistemlerine aktarılması mümkündür.
Özellikle kurumsal kullanım senaryolarında bu risk daha belirgin hâle gelmektedir. Bir şirket çalışanının müşteri bilgilerini içeren bir belgeyi özetletmek amacıyla yapay zekâ sistemine yüklemesi veya bir sağlık çalışanının hasta verilerini içeren metinleri analiz ettirmesi durumunda, sistem tarafından işlenen veriler KVKK kapsamında koruma altındaki kişisel verilerden oluşabilmektedir.
Büyük dil modelleri bakımından veri işleme faaliyeti yalnızca kullanıcıya cevap üretilmesi ile sınırlı değildir. Sisteme aktarılan verilerin geçici olarak saklanması, analiz edilmesi, sınıflandırılması, kaydedilmesi veya hizmet geliştirme amacıyla değerlendirilmesi de veri işleme faaliyetleri kapsamında değerlendirilebilmektedir.[9] Bu nedenle yapay zekâ sistemlerine aktarılan verilerin hukuki niteliğinin belirlenmesi, KVKK kapsamında veri işleme faaliyetinin varlığının tespiti açısından kritik öneme sahiptir.
Bununla birlikte, yapay zekâ sistemlerine girilen her veri otomatik olarak kişisel veri olarak kabul edilemez. Bir bilginin kişisel veri olarak nitelendirilebilmesi için belirli veya belirlenebilir gerçek kişiyle ilişkilendirilebilir olması gerekmektedir. Dolayısıyla büyük dil modellerine aktarılan verilerin hukuki niteliği, verinin içeriğine, bağlamına ve ilgili kişiyle kurulabilen bağlantıya göre ayrı ayrı değerlendirilmelidir. Bu husus, çalışmanın ilerleyen bölümlerinde KVKK kapsamında ayrıntılı olarak ele alınacaktır.
Dipnotlar
[5] TÜBİTAK BİLGEM, Büyük Dil Modelleri ve İstem Mühendisliği Raporu, Sayı: 24, Ankara, 2024, s. 12-18.
[6] Tom B. Brown vd., Language Models are Few-Shot Learners (2020).
[7] UNESCO, Guidance for Generative AI in Education and Research, Paris, 2023, s. 13-18.
[8] OpenAI, What Are Tokens and How to Count Them?, OpenAI Documentation.
[9] KVKK, Üretken Yapay Zekâ Teknolojilerinin Kullanımına Yönelik Veri Sorumlularına ve Kullanıcılara Tavsiyeler Rehberi.
3. KVKK AÇISINDAN KİŞİSEL VERİ İŞLEME FAALİYETİ
Yapay zekâ ve özellikle Büyük Dil Modellerinin (LLM) hukuki rejimini belirlerken cevaplanması gereken ilk ve en önemli soru, bu sistemlerin faaliyetleri kapsamında kişisel veri işleme faaliyetinin bulunup bulunmadığıdır. Zira 6698 sayılı Kişisel Verilerin Korunması Kanunu’nun uygulanabilmesi ve veri sorumlularına ilişkin yükümlülüklerin doğabilmesi için öncelikle Kanun kapsamında bir veri işleme faaliyetinin mevcut olması gerekmektedir.
3.1. Veri İşleme Kavramının Kapsamı ve KVKK m.3
KVKK’nın 3. maddesinin birinci fıkrasının (e) bendinde kişisel verilerin işlenmesi kavramı oldukça geniş şekilde tanımlanmıştır. Buna göre kişisel verilerin elde edilmesi, kaydedilmesi, depolanması, muhafaza edilmesi, değiştirilmesi, yeniden düzenlenmesi, açıklanması, aktarılması, devralınması, sınıflandırılması veya kullanılmasının engellenmesi gibi veriler üzerinde gerçekleştirilen her türlü faaliyet veri işleme olarak kabul edilmektedir.[10]
Büyük dil modellerinin çalışma süreçleri incelendiğinde, sistemin farklı aşamalarında KVKK anlamında veri işleme faaliyetlerinin gerçekleştiği görülmektedir.
Veri Toplama ve Kaydetme: Modelin eğitimi amacıyla kullanılan veri setleri, internet ortamında yer alan açık kaynaklardan, dijital yayınlardan ve çeşitli veri havuzlarından elde edilmektedir. Bu süreçte kişilere ilişkin çeşitli verilerin veri setlerine dahil edilmesi, KVKK anlamında veri elde etme ve kaydetme faaliyetleri kapsamında değerlendirilebilmektedir.
Depolama ve Muhafaza: Toplanan veri setleri eğitim sürecinde ve sonrasında sunucularda veya veri tabanlarında saklanmakta ve muhafaza edilmektedir. Bu işlemler de veri işleme faaliyetleri arasında yer almaktadır.
Sınıflandırma ve Algoritmik İşleme: Büyük dil modelleri, eğitim sürecinde veriler arasındaki ilişkileri analiz ederek istatistiksel örüntüler oluşturmaktadır. Bu süreçte verilerin çeşitli parametreler doğrultusunda işlenmesi ve sınıflandırılması söz konusu olmaktadır.
Aktarma ve Açıklama: Kullanıcı etkileşimleri sırasında oluşturulan çıktıların belirli durumlarda üçüncü kişilere ilişkin bilgiler içermesi mümkündür. Böyle durumlarda verilerin aktarılması veya açıklanması niteliğinde sonuçlar ortaya çıkabilmektedir.
Dolayısıyla büyük dil modellerinin teknik çalışma mantığı incelendiğinde, KVKK m.3 kapsamında sayılan veri işleme faaliyetlerinin önemli bir bölümünün bu sistemlerin işleyişinde yer aldığı görülmektedir.[11]
3.2. Hukuki Açıdan Baskın Görüş: LLM’ler Veri İşler
Doktrinde ve uluslararası veri koruma otoritelerinin değerlendirmelerinde, büyük dil modellerinin kişisel veri işleme faaliyeti gerçekleştirip gerçekleştirmediği hususu ilk dönemlerde tartışma konusu olmuşsa da günümüzde bu tartışmanın önemli ölçüde netlik kazandığı görülmektedir.
Nitekim Avrupa Veri Koruma Kurulu (EDPB) bünyesinde oluşturulan ChatGPT Görev Gücü tarafından yayımlanan değerlendirmeler ile İtalyan Veri Koruma Otoritesi’nin OpenAI hakkında vermiş olduğu kararlar, üretken yapay zekâ sistemlerinin veri koruma hukuku kapsamında değerlendirilmesi gerektiğini ortaya koymaktadır.[12][13]
Bu çerçevede günümüzde gerek ulusal gerekse uluslararası bilişim hukuku literatüründe baskın görüş, büyük dil modellerinin gerek eğitim süreçlerinde gerekse kullanıcı etkileşimleri sırasında kişisel veri işleme faaliyetinde bulunduğu yönündedir. Yapay zekâ sistemlerinin karmaşık teknik mimarisi bu süreci son kullanıcı açısından görünmez kılsa da, verilerin elde edilmesi, kaydedilmesi, analiz edilmesi, sınıflandırılması ve belirli amaçlar doğrultusunda kullanılması gibi faaliyetler KVKK anlamında veri işleme niteliği taşımaktadır.[14]
3.3. Meşruiyet Zemini Arayışı: KVKK m.5 ve LLM’ler
Veri işleme faaliyetinin varlığı tespit edildikten sonra ortaya çıkan temel hukuki mesele, bu faaliyetlerin KVKK m.5 kapsamında düzenlenen veri işleme şartlarından hangisine dayandırılabileceğidir.
Kanun, kural olarak kişisel verilerin ilgili kişinin açık rızası olmaksızın işlenmesini yasaklamış; ancak m.5/2 hükmünde belirli istisnalar öngörmüştür.[15] Büyük dil modelleri bakımından ise özellikle açık rıza ve meşru menfaat hukuki sebepleri tartışma konusu olmaktadır.
Açık Rıza Sorunu
İnternet ortamındaki milyarlarca web sayfası, forum, dijital arşiv ve benzeri kaynaklardan veri toplanarak oluşturulan eğitim veri setleri dikkate alındığında, verisi işlenen tüm gerçek kişilerin tek tek tespit edilmesi ve her birinden KVKK’nın öngördüğü şartlara uygun şekilde açık rıza alınması son derece güç görünmektedir. Bu nedenle büyük dil modellerinin eğitimi sürecinde açık rızaya dayalı bir veri işleme mekanizmasının uygulanabilirliği öğretide ve uygulamada yoğun biçimde tartışılmaktadır.[16]
Meşru Menfaat ve Denge Testi
LLM geliştiricileri bakımından en çok tartışılan hukuka uygunluk sebeplerinden biri, KVKK m.5/2-f kapsamında düzenlenen veri sorumlusunun meşru menfaatidir. Ancak bu hukuki sebebin uygulanabilmesi için veri sorumlusunun menfaati ile ilgili kişinin temel hak ve özgürlükleri arasında makul bir denge kurulması gerekmektedir.
Büyük dil modellerinin internetten veri çekerek (web scraping) eğitilmesi sürecinde, Avrupa’daki GDPR m.6/1-f (Meşru Menfaat) kapsamında OpenAI’ın savunmalar yaptığı ancak verilerin çekildiği kişilerin “meşru beklentileri” ile modelin ticari menfaati arasındaki dengenin hukuken hâlâ gri bir alan olduğu belirtilebilir. Zira KVKK m.5/2-f’deki “ilgili kişinin temel hak ve özgürlüklerine zarar vermemek kaydıyla” ifadesi, yapay zekânın halüsinasyon riskiyle birleştiğinde meşru menfaati ciddi şekilde sakatlamaktadır. Model eğitim süreçlerinde veri minimizasyonu ilkesinin sağlanmasındaki güçlükler, ilgili kişilerin yeterli ölçüde aydınlatılamaması, verilerin silinmesi veya düzeltilmesine ilişkin taleplerin uygulanmasında yaşanan teknik zorluklar ve bazı durumlarda gerçeğe aykırı içerik üretebilmesi (halüsinasyon) gibi riskler dikkate alındığında, söz konusu denge testinin nasıl yapılacağı hâlen tartışmalı bir konu olma özelliğini korumaktadır.[17][18]
Sonuç olarak, büyük dil modellerinin gerek eğitim süreçlerinde gerekse kullanıcı etkileşimleri sırasında KVKK anlamında veri işleme faaliyetinde bulunduğu hususu günümüzde geniş ölçüde kabul görmektedir.[19] Bununla birlikte, söz konusu veri işleme faaliyetlerinin hangi hukuki işleme şartına dayanılarak meşrulaştırılabileceği, veri sorumluluğunun hangi aktörlere yükleneceği ve ilgili kişilerin haklarının nasıl korunacağı hususları hâlen güncelliğini koruyan tartışma alanlarıdır. Bu nedenle üretken yapay zekâ sistemleri bakımından temel mesele, veri işlemenin varlığından ziyade, bu işlemenin hangi hukuki çerçeve içerisinde gerçekleştirileceğinin belirlenmesidir.
Dipnotlar
[10] 6698 Sayılı Kişisel Verilerin Korunması Kanunu, m.3/1-e.
[11] Kişisel Verileri Koruma Kurumu (KVKK), Yapay Zekâ Alanında Kişisel Verilerin Korunmasına Dair Tavsiyeler, Ankara, 2021, s. 8-12.
[12] European Data Protection Board (EDPB), Report of the ChatGPT Task Force, 2024.
[13] Garante per la Protezione dei Dati Personali, Provision of 11 April 2023 – Privacy Enhancements Requested to OpenAI by the Italian Supervisory Authority, 2023.
[14] EDPB, Report of the ChatGPT Task Force, 2024; KVKK, Yapay Zekâ Alanında Kişisel Verilerin Korunmasına Dair Tavsiyeler, 2021.
[15] 6698 Sayılı Kişisel Verilerin Korunması Kanunu, m.5.
[16] EDPB, Report of the ChatGPT Task Force, 2024.
[17] KVKK, Üretken Yapay Zekâ Teknolojilerinin Kullanımına Yönelik Veri Sorumlularına ve Kullanıcılara Tavsiyeler Rehberi, Ankara, 2024.
[18] EDPB, Report of the ChatGPT Task Force, 2024; Garante per la Protezione dei Dati Personali, 11 April 2023 tarihli OpenAI Kararı.
[19] EDPB, Report of the ChatGPT Task Force, 2024; KVKK, Yapay Zekâ Alanında Kişisel Verilerin Korunmasına Dair Tavsiyeler, 2021.
4. KVKK AÇISINDAN KİŞİSEL VERİ KAVRAMI VE CHATGPT’YE YAZILAN VERİLERİN HUKUKİ NİTELİĞİ
4.1. KVKK’da Kişisel Veri Kavramı
6698 sayılı Kişisel Verilerin Korunması Kanunu’nun 3. maddesinin birinci fıkrasının (d) bendine göre kişisel veri, “kimliği belirli veya belirlenebilir gerçek kişiye ilişkin her türlü bilgi” olarak tanımlanmaktadır.[20]
Kanun koyucu tarafından tercih edilen bu tanım oldukça geniş bir kapsama sahiptir. Bir bilginin kişisel veri olarak kabul edilebilmesi için tek başına kişinin kimliğini doğrudan ortaya koyması zorunlu değildir. İlgili kişinin doğrudan veya dolaylı biçimde belirlenebilmesine imkân sağlayan her türlü bilgi kişisel veri niteliği taşıyabilmektedir.
Nitekim ad-soyad, T.C. kimlik numarası, telefon numarası, e-posta adresi ve adres bilgileri gibi doğrudan tanımlayıcı verilerin yanında; IP adresi, lokasyon bilgisi, meslek bilgisi, eğitim geçmişi, fotoğraf, ses kaydı ve çevrim içi kullanıcı davranışları da belirli koşullar altında kişisel veri olarak değerlendirilebilmektedir.[21]
Bu nedenle kişisel veri kavramının sınırları yalnızca klasik kimlik bilgileri ile sınırlı olmayıp, belirli veya belirlenebilir bir gerçek kişiyle ilişkilendirilebilen her türlü bilgiyi kapsayacak şekilde yorumlanmaktadır.
4.2. ChatGPT’ye Yazılan Her Bilgi Kişisel Veri Sayılır mı?
Üretken yapay zekâ sistemlerine aktarılan her bilginin otomatik olarak kişisel veri olarak kabul edilmesi mümkün değildir. Bir verinin KVKK korumasından yararlanabilmesi için öncelikle belirli veya belirlenebilir bir gerçek kişiyle ilişkilendirilebilir olması gerekmektedir.
Örneğin;
- “İstanbul’da yarın hava nasıl olacak?” şeklindeki bir soru kişisel veri içermemektedir.
- “Python programlama dilinde bir döngü nasıl kurulur?” şeklindeki teknik bir sorgu da kişisel veri niteliği taşımamaktadır.
- Bir şirketin kamuya açık ürün kataloğunun özetlenmesinin istenmesi de kural olarak kişisel veri işlenmesi anlamına gelmemektedir.
Buna karşılık aşağıdaki örneklerde kişisel veri işlenmesinden söz edilebilecektir:
- “Ahmet Yılmaz’ın SGK kayıtlarında görünen sağlık raporlarını özetle.”
- “Bu özgeçmişte yer alan adayın güçlü ve zayıf yönlerini değerlendir.”
- “Müşteri listemde bulunan kişilerin iletişim bilgilerini sınıflandır.”
Bu örneklerde sisteme aktarılan veriler belirli veya belirlenebilir gerçek kişilerle ilişkilendirilebildiğinden KVKK kapsamında kişisel veri niteliği taşımaktadır.
Dolayısıyla ChatGPT’ye veya benzeri büyük dil modellerine yazılan her şey kişisel veri değildir. Hukuki değerlendirme yapılırken verinin içeriğine, bağlamına ve gerçek bir kişiyle kurulabilen bağlantısına bakılması gerekmektedir.
4.3. Belirlenebilirlik Ölçütü ve Dolaylı Tanımlama Sorunu
Büyük dil modelleri bakımından en önemli hukuki sorunlardan biri, ilk bakışta anonim görünen bilgilerin dahi belirli bir kişiyi tanımlamaya imkân verebilmesidir.
Örneğin;
“İstanbul’da faaliyet gösteren X Hastanesi’nin kardiyoloji bölümünde çalışan ve geçen ay kalp nakli ameliyatına giren 42 yaşındaki kadın doktor.”
ifadesinde isim yer almamakla birlikte, ilgili kişinin belirlenebilmesi mümkündür. Bu nedenle söz konusu bilgi kişisel veri olarak değerlendirilebilecektir.
Benzer şekilde;
“Şirketimizin muhasebe müdürü geçen hafta vergi incelemesine alındı.”
şeklindeki bir ifade de şirket içerisindeki kişiler tarafından kolaylıkla belirli bir gerçek kişiyle ilişkilendirilebileceğinden kişisel veri niteliği taşıyabilir.
KVKK uygulamasında ve Avrupa Birliği veri koruma hukukunda kabul edilen yaklaşım uyarınca, verinin tek başına değil diğer verilerle birleştirildiğinde kişiyi belirlenebilir kılıp kılmadığı da dikkate alınmaktadır.[22]
Bu nedenle büyük dil modellerine aktarılan veriler değerlendirilirken yalnızca açık kimlik bilgilerinin varlığına değil, ilgili kişinin dolaylı olarak teşhis edilip edilemeyeceğine de bakılmalıdır.
4.4. Özel Nitelikli Kişisel Veriler Bakımından Değerlendirme
ChatGPT ve benzeri sistemlere aktarılan veriler arasında zaman zaman özel nitelikli kişisel veriler de yer alabilmektedir.
KVKK m.6 kapsamında sağlık bilgileri, biyometrik veriler, genetik veriler, siyasi düşünce, dini inanç, sendika üyeliği ve ceza mahkûmiyeti bilgileri gibi veriler özel nitelikli kişisel veri olarak kabul edilmektedir.[23]
Özellikle sağlık kuruluşlarında, hukuk bürolarında, insan kaynakları departmanlarında ve finans sektöründe kullanılan yapay zekâ araçları bakımından bu risk daha belirgin hâle gelmektedir. Çünkü kullanıcılar farkında olmadan özel nitelikli kişisel verileri sistemlere aktarabilmekte ve böylece daha sıkı koruma rejimine tabi verilerin işlenmesine neden olabilmektedir.
Bu nedenle üretken yapay zekâ sistemlerinin kullanımı sırasında yalnızca kişisel veri varlığının değil, işlenen verinin özel nitelikli olup olmadığının da ayrıca değerlendirilmesi gerekmektedir.
4.5. Ara Sonuç
Yukarıdaki açıklamalar ışığında, ChatGPT’ye yazılan her bilginin otomatik olarak kişisel veri olarak kabul edilmesi mümkün değildir. Bir verinin KVKK kapsamında korunabilmesi için belirli veya belirlenebilir bir gerçek kişiyle ilişkilendirilebilir olması gerekmektedir.
Bununla birlikte büyük dil modellerinin kullanımında kişisel veri kavramının sınırları oldukça geniş yorumlanmalıdır. Zira doğrudan kimlik bilgisi içermeyen birçok veri de diğer bilgilerle bir araya geldiğinde ilgili kişinin belirlenmesine imkân verebilmektedir.
Bu nedenle ChatGPT’ye yazılan verilerin hukuki niteliği her somut olay bakımından ayrı ayrı değerlendirilmeli; özellikle belirlenebilirlik ölçütü ve özel nitelikli kişisel veri riski göz önünde bulundurulmalıdır.
Dipnotlar
[20] 6698 Sayılı KVKK m.3/1-d.
[21] KVKK, Kişisel Veri Güvenliği Rehberi; Avrupa Adalet Divanı, Breyer v. Germany (C-582/14).
[22] Avrupa Veri Koruma Tüzüğü (GDPR), Recital 26; Avrupa Veri Koruma Kurulu kararları.
[23] 6698 Sayılı KVKK m.6.
5. CHATGPT, VERİ SORUMLUSU MU VERİ İŞLEYEN Mİ? KVKK AÇISINDAN SORUMLULUK REJİMİ
5.1. Veri Sorumlusu ve Veri İşleyen Kavramları
6698 sayılı Kişisel Verilerin Korunması Kanunu’nun 3. maddesine göre veri sorumlusu; kişisel verilerin işleme amaçlarını ve vasıtalarını belirleyen, veri kayıt sisteminin kurulmasından ve yönetilmesinden sorumlu olan gerçek veya tüzel kişi olarak tanımlanmaktadır.[24]
Aynı maddede veri işleyen ise veri sorumlusunun verdiği yetkiye dayanarak onun adına kişisel verileri işleyen gerçek veya tüzel kişi olarak ifade edilmektedir.[25]
Bu ayrım, kişisel verilerin korunması hukukunun temel unsurlarından biridir. Zira aydınlatma yükümlülüğü, veri güvenliğinin sağlanması, ilgili kişi başvurularının cevaplandırılması ve hukuka uygun işleme şartlarının belirlenmesi gibi temel yükümlülükler esas olarak veri sorumlusuna aittir.
Üretken yapay zekâ sistemleri bakımından ise veri sorumlusu ve veri işleyen ayrımının uygulanması her zaman kolay değildir. Çünkü aynı sistem içerisinde yapay zekâ hizmet sağlayıcısı, kurumsal kullanıcı ve son kullanıcı farklı düzeylerde veri işleme faaliyetlerinde bulunabilmektedir.
5.2. Yapay Zekâ Hizmet Sağlayıcısının Hukuki Konumu
ChatGPT, Gemini veya Claude gibi sistemleri geliştiren ve işleten şirketler, yapay zekâ altyapısını kurmakta, verilerin hangi amaçlarla işleneceğini belirlemekte ve sistemin çalışma esaslarını oluşturmaktadır.
Bu nedenle, özellikle model eğitimi, hizmet geliştirme, güvenlik kontrolleri ve kullanıcı etkileşimlerinin yönetimi gibi süreçler bakımından hizmet sağlayıcının veri sorumlusu olarak değerlendirilebileceği yönünde güçlü görüşler bulunmaktadır.[26]
Nitekim Avrupa’da OpenAI hakkında yürütülen incelemelerde de veri koruma yükümlülüklerinin doğrudan hizmet sağlayıcı bakımından değerlendirildiği görülmektedir.[27]
Bununla birlikte her kullanım senaryosunda tek veri sorumlusunun hizmet sağlayıcı olduğu sonucuna ulaşmak da mümkün değildir. Özellikle kurumsal kullanım örneklerinde farklı değerlendirmeler yapılabilmektedir.
5.3. Kurumsal Kullanıcıların Veri Sorumluluğu
Bir şirketin, çalışanlarına veya müşterilerine ait kişisel verileri kullanarak yapay zekâ sistemlerinden hizmet alması durumunda veri işleme amacını ve yöntemini belirleyen taraf çoğu zaman şirketin kendisi olmaktadır.
Örneğin bir hukuk bürosunun müvekkil bilgilerini içeren belgeleri analiz ettirmesi, bir hastanenin hasta kayıtlarını değerlendirmesi veya bir şirketin müşteri verilerini sınıflandırması hâllerinde yapay zekâ aracını kullanan kurumun veri sorumlusu sıfatıyla hareket ettiği kabul edilebilecektir.
Bu tür senaryolarda yapay zekâ sağlayıcısı ile kurumsal kullanıcı arasında veri sorumlusu-veri işleyen ilişkisi veya müşterek veri sorumluluğu benzeri karma modellerin ortaya çıkması mümkündür.[28]
Dolayısıyla üretken yapay zekâ sistemlerinde sorumluluğun tek bir aktöre yüklenmesi yerine, somut olayın özelliklerine göre değerlendirme yapılması daha isabetli görünmektedir.
5.4. Son Kullanıcının Sorumluluğu
Yapay zekâ sistemlerine veri aktaran kişiler bakımından da belirli hukuki riskler bulunmaktadır.
Özellikle üçüncü kişilere ait kişisel verilerin hukuki dayanak olmaksızın sisteme yüklenmesi durumunda, veriyi sisteme aktaran kişi bakımından da KVKK kapsamında sorumluluk doğabilecektir.
Örneğin bir çalışanın müşteri listesini, bir avukatın müvekkil belgelerini veya bir sağlık çalışanının hasta kayıtlarını gerekli hukuki şartlar oluşmaksızın yapay zekâ sistemine aktarması hâlinde veri koruma hukuku bakımından çeşitli ihlaller söz konusu olabilecektir.
Bu nedenle üretken yapay zekâ sistemlerinin kullanımında yalnızca hizmet sağlayıcının değil, sistemi kullanan gerçek ve tüzel kişilerin de veri koruma yükümlülükleri bakımından dikkatli hareket etmesi gerekmektedir.[29]
5.5. Ortaya Çıkan Hibrit Sorumluluk Modeli
Büyük dil modelleri, geleneksel veri işleme ilişkilerinden farklı olarak çok katmanlı bir yapı ortaya çıkarmaktadır. Bir tarafta modeli geliştiren ve işleten şirket, diğer tarafta sistemi kendi amaçları doğrultusunda kullanan kurumlar ve nihayet veriyi sisteme aktaran son kullanıcılar bulunmaktadır.
Bu nedenle üretken yapay zekâ ekosisteminde klasik veri sorumlusu-veri işleyen ayrımının bazı durumlarda yetersiz kaldığı görülmektedir. Özellikle veri işleme amaçlarının birden fazla aktör tarafından belirlendiği senaryolarda müşterek veri sorumluluğu veya çok katmanlı sorumluluk modellerinin gündeme gelebileceği değerlendirilmektedir.[30]
Bu durum, yapay zekâ sistemlerinin veri koruma hukuku bakımından neden yeni hukuki tartışmalar doğurduğunu da göstermektedir.
5.6. Ara Sonuç
ChatGPT ve benzeri büyük dil modelleri bakımından veri sorumlusu ve veri işleyen sıfatlarının tek bir aktör üzerinden değerlendirilmesi çoğu zaman mümkün değildir. Hizmet sağlayıcının, kurumsal kullanıcının ve bazı durumlarda son kullanıcının aynı veri işleme sürecinde farklı hukuki roller üstlenebildiği görülmektedir.
Bu nedenle üretken yapay zekâ sistemlerinde sorumluluğun belirlenmesi, kullanılan sistemin teknik özelliklerine, verinin kim tarafından işlendiğine, işleme amaçlarının kim tarafından belirlendiğine ve taraflar arasındaki hukuki ilişkiye göre somut olay bazında değerlendirilmelidir.
Dipnotlar
[24] 6698 Sayılı KVKK m.3/1-ı.
[25] 6698 Sayılı KVKK m.3/1-ğ.
[26] EDPB, Report of the ChatGPT Task Force, 2024.
[27] Garante per la Protezione dei Dati Personali, Provision of 11 April 2023 – OpenAI Decision, 2023.
[28] EDPB, Guidelines 07/2020 on the Concepts of Controller and Processor in the GDPR, 2021.
[29] KVKK, Üretken Yapay Zekâ Teknolojilerinin Kullanımına Yönelik Veri Sorumlularına ve Kullanıcılara Tavsiyeler Rehberi, 2024.
[30] EDPB, Guidelines 07/2020 on the Concepts of Controller and Processor in the GDPR, 2021.
6. BÜYÜK DİL MODELLERİNDE SINIR ÖTESİ VERİ AKTARIMI, AÇIK RIZA VE VERİ MİNİMİZASYONU SORUNLARI
6.1. Üretken Yapay Zekâ Sistemlerinde Sınır Ötesi Veri Aktarımı Sorunu
Büyük dil modellerinin önemli bir bölümü, küresel ölçekte faaliyet gösteren teknoloji şirketleri tarafından geliştirilmekte ve işletilmektedir. ChatGPT, Gemini ve Claude gibi sistemlerin teknik altyapıları çoğunlukla Türkiye dışında bulunan veri merkezleri ve bulut bilişim hizmetleri üzerinden çalışmaktadır.
Bu nedenle kullanıcılar tarafından sisteme aktarılan verilerin yalnızca yerel bir cihazda işlenmediği, birçok durumda yurt dışındaki sunuculara aktarılabildiği kabul edilmektedir. Özellikle kişisel veri içeren promptlar, yüklenen belgeler ve kullanıcı etkileşimleri bakımından bu durum KVKK açısından ayrıca değerlendirilmesi gereken bir hukuki mesele ortaya çıkarmaktadır.
KVKK’da 2024 yılında yürürlüğe giren değişikliklerle birlikte kişisel verilerin yurt dışına aktarılmasına ilişkin rejim önemli ölçüde yenilenmiştir.[31] Buna göre kişisel verilerin yurt dışına aktarılabilmesi için Kanunda öngörülen aktarım şartlarından en az birinin sağlanması gerekmektedir.
Bu kapsamda üretken yapay zekâ sistemlerine kişisel veri aktarılması hâlinde, verinin teknik olarak hangi ülkelerde işlendiğinin ve veri aktarımının hangi hukuki mekanizmaya dayandırıldığının ayrıca değerlendirilmesi önem taşımaktadır.
6.2. Açık Rıza ve Yapay Zekâ Sistemleri
Kişisel verilerin korunması hukukunda açık rıza, ilgili kişinin belirli bir konuya ilişkin, bilgilendirmeye dayanan ve özgür iradeyle açıklanan rızasını ifade etmektedir.[32]
Ancak üretken yapay zekâ sistemleri bakımından açık rıza mekanizmasının uygulanması çeşitli güçlükler içermektedir. Özellikle model eğitimi amacıyla kullanılan büyük ölçekli veri setlerinde yer alan milyonlarca veri sahibi bakımından açık rıza alınmasının pratikte son derece zor olduğu ifade edilmektedir.
Bunun yanında kullanıcıların üçüncü kişilere ait verileri yapay zekâ sistemlerine aktarması hâlinde de açık rıza sorunu ortaya çıkabilmektedir. Örneğin bir çalışanın müşteri bilgilerini, bir avukatın müvekkiline ait belgeleri veya bir insan kaynakları uzmanının aday özgeçmişlerini yapay zekâ sistemine yüklemesi durumunda, ilgili kişilerden gerekli hukuki dayanak olmaksızın veri aktarımı yapılması söz konusu olabilecektir.
Bu nedenle üretken yapay zekâ sistemlerinin kullanımında yalnızca hizmet sağlayıcının değil, sistemi kullanan gerçek ve tüzel kişilerin de veri işleme şartlarını dikkatle değerlendirmesi gerekmektedir.
6.3. Veri Minimizasyonu İlkesi ve Prompt Riskleri
KVKK’nın temel ilkelerinden biri, işlenen verilerin işleme amacıyla bağlantılı, sınırlı ve ölçülü olmasıdır.[33] Öğretide ve uygulamada bu yaklaşım veri minimizasyonu ilkesi olarak ifade edilmektedir.
Üretken yapay zekâ sistemlerinin kullanımında ise kullanıcıların ihtiyaç duyulandan daha fazla veri paylaşma eğiliminde olduğu görülmektedir. Bir metnin özetlenmesi veya analiz edilmesi amacıyla yapılan işlemlerde çoğu zaman kişisel verilerin anonimleştirilmesi veya maskeleştirilmesi mümkünken, kullanıcılar belgeleri doğrudan sisteme yükleyebilmektedir.
Örneğin bir şirket çalışanının müşteri listesinin tamamını sisteme aktarması yerine yalnızca gerekli verileri paylaşması mümkündür. Benzer şekilde bir hukuk bürosunun dava dosyasındaki taraf bilgilerini anonimleştirmeden yapay zekâ sistemine yüklemesi, veri minimizasyonu ilkesi bakımından çeşitli riskler doğurabilecektir.
Bu nedenle yapay zekâ sistemlerinin kullanımında mümkün olan en az miktarda kişisel verinin işlenmesi ve gerekli olmayan bilgilerin sisteme aktarılmaması önem taşımaktadır.
6.4. Tasarımdan İtibaren Veri Koruma (Privacy by Design) Yaklaşımı
Üretken yapay zekâ sistemlerinin yaygınlaşmasıyla birlikte veri koruma hukukunda “tasarımdan itibaren veri koruma” yaklaşımı daha fazla önem kazanmıştır.
Bu yaklaşım uyarınca veri koruma tedbirlerinin sonradan eklenen güvenlik önlemleri olarak değil, sistemin tasarım aşamasından itibaren dikkate alınması gerekmektedir.[34]
Büyük dil modelleri bakımından anonimleştirme mekanizmalarının geliştirilmesi, veri saklama sürelerinin sınırlandırılması, kullanıcı kontrol araçlarının artırılması ve gereksiz veri işlenmesinin önlenmesi bu yaklaşımın temel unsurları arasında yer almaktadır.
Nitekim Avrupa veri koruma otoriteleri ve KVKK da yapay zekâ sistemlerinin geliştirilmesi ve kullanılması süreçlerinde veri koruma ilkelerinin tasarım aşamasından itibaren dikkate alınması gerektiğini vurgulamaktadır.[35]
6.5. Ara Sonuç
Üretken yapay zekâ sistemleri, veri koruma hukukunun geleneksel sorunlarını yeni bir boyuta taşımaktadır. Özellikle sınır ötesi veri aktarımı, açık rıza mekanizmalarının uygulanabilirliği ve veri minimizasyonu ilkesi bakımından önemli hukuki tartışmalar bulunmaktadır.
Bu nedenle ChatGPT ve benzeri sistemlerin kullanımında yalnızca elde edilen çıktılara odaklanılması yeterli değildir. Verilerin hangi amaçla işlendiği, hangi ülkelere aktarıldığı, ne kadar süre saklandığı ve veri koruma ilkelerine uygunluğun nasıl sağlandığı da ayrıca değerlendirilmelidir. Yapay zekâ teknolojilerinin hukuka uygun kullanımının sağlanabilmesi, teknik gelişmeler ile veri koruma ilkeleri arasında sürdürülebilir bir denge kurulmasına bağlıdır.
Dipnotlar
[31] 7499 Sayılı Kanun ile değişik 6698 Sayılı KVKK m.9 (Yurt Dışına Veri Aktarımı).
[32] 6698 Sayılı KVKK m.3/1-a.
[33] 6698 Sayılı KVKK m.4/2-ç.
[34] Ann Cavoukian, Privacy by Design: The 7 Foundational Principles.
[35] KVKK, Üretken Yapay Zekâ Teknolojilerinin Kullanımına Yönelik Veri Sorumlularına ve Kullanıcılara Tavsiyeler Rehberi; EDPB, Report of the ChatGPT Task Force, 2024.
7. SONUÇ VE DEĞERLENDİRME
Üretken yapay zekâ teknolojilerinin yaygınlaşmasıyla birlikte büyük dil modelleri, bireysel ve kurumsal kullanımın önemli araçlarından biri hâline gelmiştir. ChatGPT, Gemini ve Claude gibi sistemler; bilgiye erişim, içerik üretimi, analiz ve karar destek süreçlerinde önemli kolaylıklar sağlamakla birlikte, kişisel verilerin korunması hukuku bakımından yeni tartışmaları da beraberinde getirmiştir.
Bu çalışmada öncelikle büyük dil modellerinin teknik çalışma mantığı incelenmiş, ardından bu sistemlerin gerçekleştirdiği faaliyetlerin 6698 sayılı Kişisel Verilerin Korunması Kanunu kapsamında veri işleme faaliyeti oluşturup oluşturmadığı değerlendirilmiştir. Yapılan inceleme sonucunda, büyük dil modellerinin gerek eğitim süreçlerinde gerekse kullanıcı etkileşimleri sırasında kişisel verilerin kaydedilmesi, depolanması, sınıflandırılması, analiz edilmesi ve aktarılması gibi işlemler gerçekleştirebildiği; bu nedenle KVKK anlamında veri işleme faaliyetinde bulunduğu sonucuna ulaşılmıştır.
Bununla birlikte, çalışmanın temel sorusunu oluşturan “ChatGPT’ye yazılan her şey hukuken kişisel veri midir?” sorusuna verilecek cevap olumsuzdur. Zira KVKK’nın 3. maddesi uyarınca bir bilginin kişisel veri olarak kabul edilebilmesi için belirli veya belirlenebilir gerçek kişiye ilişkin olması gerekmektedir. Yapay zekâ sistemlerine girilen her veri bu niteliği taşımamaktadır. Genel bilgiler, anonim içerikler, kurgu metinleri veya herhangi bir gerçek kişiyle ilişkilendirilemeyen veriler kişisel veri olarak değerlendirilemez. Buna karşılık isim, iletişim bilgisi, sağlık verisi, finansal bilgi, kimlik bilgisi veya ilgili kişinin belirlenmesine imkân sağlayan diğer veriler kişisel veri niteliği taşıyabilmektedir.
Çalışmada ayrıca büyük dil modellerinin veri sorumlusu ve veri işleyen kavramları bakımından ortaya çıkardığı hukuki belirsizlikler ele alınmıştır. Üretken yapay zekâ ekosisteminde yalnızca hizmet sağlayıcının değil, bazı durumlarda kurumsal kullanıcıların ve hatta sisteme veri aktaran kişilerin de veri koruma hukukundan kaynaklanan yükümlülüklerle karşılaşabileceği görülmektedir. Bu durum, geleneksel veri sorumlusu-veri işleyen ayrımının yapay zekâ sistemleri bakımından her zaman yeterli açıklamayı sağlayamadığını göstermektedir.
Öte yandan sınır ötesi veri aktarımı, açık rıza mekanizmalarının uygulanabilirliği, veri minimizasyonu ilkesi ve tasarımdan itibaren veri koruma yaklaşımı, üretken yapay zekâ sistemlerinin hukuka uygun kullanımında belirleyici öneme sahiptir. Özellikle kullanıcıların sisteme gereğinden fazla kişisel veri aktarması, hem bireysel hem de kurumsal düzeyde önemli hukuki riskler doğurabilmektedir.
Günümüzde veri koruma hukukunun karşı karşıya bulunduğu temel sorun, yapay zekâ teknolojilerinin gelişimini engellemeden bireylerin temel hak ve özgürlüklerini koruyabilecek dengeli bir hukuki çerçeve oluşturabilmektir. Mevcut mevzuat hükümleri, büyük dil modellerinin yol açtığı birçok sorunun çözümünde uygulanabilir nitelikte olmakla birlikte, yapay zekâ teknolojilerinin sürekli değişen yapısı karşısında yeni düzenlemelere ve güncel rehberlere ihtiyaç duyulduğu açıktır.
Sonuç olarak, ChatGPT ve benzeri büyük dil modellerine aktarılan her bilgi otomatik olarak kişisel veri olarak kabul edilemez. Ancak belirli veya belirlenebilir gerçek kişiye ilişkin verilerin bu sistemlere aktarılması hâlinde, KVKK’nın koruma alanı devreye girmekte ve veri işleme faaliyetinin hukuka uygunluk şartları ayrıca değerlendirilmektedir. Bu nedenle üretken yapay zekâ sistemlerinin kullanımında teknik imkânlar kadar veri koruma ilkelerinin de gözetilmesi, dijital çağın temel hukuki gerekliliklerinden biri olarak karşımıza çıkmaktadır.
YAZAR; MERAL BALSAK (BİLİŞİM TEKNOLOJİLERİ ÖĞRETMENİ/ARAŞTIRMACI/YAZAR)
