El grupo al cual envías entradas es un
grupo Usenet . Si envías mensajes a este grupo, cualquier usuario de Internet podrá ver tu dirección de correo electrónico
Tu respuesta no se ha enviado.
Tu entrada se ha publicado correctamente.
De:
忧郁王子 <mykinghea... @gmail.com>
Fecha: Tue, 3 Nov 2009 01:01:44 -0800 (PST)
Local: Mart 3 nov 2009 04:01
Asunto: 关于字符编码的问题, 有的行有的就不行
最近在拿Python做一些HTML解析的东西, 由于解析的是中文网站,所有就出现了很严重的编码问题. 程序的流程很简单, 通过urllib.urlopen()打开一个页面, 然后将它导入BeautifulSoup, 解析后, 输入页面的 title内容, 代码如下: http://david-paste.cn/paste/57/ 代码里面有使用mysql来做存储对象, 因为怕是终端的编码导致中文乱码, 打开http://www.sqlite.com.cn/ MySqlite/11/310.Html就没有乱码的问题, 打开http://news.sina.com.cn/就 有乱码的问题, 不知道是为什 么了.
同时, 我有一个小问题, 我使用urllib.urlopen()打开一个页面, 得到的内容的编码是什么呢, unicode还是该页面的编码?
希望能够得到大家的答复~谢谢大家
No dispones del permiso necesario para enviar entradas.
De:
"Zoom.Quiet" <zoom.qu... @gmail.com>
Fecha: Tue, 3 Nov 2009 01:07:38 -0800 (PST)
Local: Mart 3 nov 2009 04:07
Asunto: Re: 关于字符编码的问题, 有的行有的就不行
On Nov 3, 5:01 pm, 忧郁王子 <mykinghea... @gmail.com> wrote: > 最近在拿Python做一些HTML解析的东西, 由于解析的是中文网站,所有就出现了很严重的编码问题.
> 程序的流程很简单, 通过urllib.urlopen()打开一个页面, 然后将它导入BeautifulSoup, 解析后, 输入页面的
> title内容, 代码如下:
http://david-paste.cn/paste/57/ > 代码里面有使用mysql来做存储对象, 因为怕是终端的编码导致中文乱码, 打开http://www.sqlite.com.cn/ > MySqlite/11/310.Html就没有乱码的问题, 打开http://news.sina.com.cn/就 有乱码的问题, 不知道是为什 > 么了.
> 同时, 我有一个小问题, 我使用urllib.urlopen()打开一个页面, 得到的内容的编码是什么呢, unicode还是该页面的编码?
just try and test it;-)
> 希望能够得到大家的答复~谢谢大家
No dispones del permiso necesario para enviar entradas.
De:
deafwolf <deafwolfdr... @gmail.com>
Fecha: Tue, 3 Nov 2009 01:08:50 -0800 (PST)
Local: Mart 3 nov 2009 04:08
Asunto: Re: 关于字符编码的问题, 有的行有的就不行
常规做法是读head的meta,可以得到编码,不过那个未必对 比较万全的做法是用chardet,准确率相当高,但是对于某些混合编码的页面,就应付不了了 而且,就算编码正确,仍然可能有某些字符无法转换,所以要加异常处理,放弃出错的部分 On Nov 3, 5:01 pm, 忧郁王子 <mykinghea... @gmail.com> wrote:
> 最近在拿Python做一些HTML解析的东西, 由于解析的是中文网站,所有就出现了很严重的编码问题.
> 程序的流程很简单, 通过urllib.urlopen()打开一个页面, 然后将它导入BeautifulSoup, 解析后, 输入页面的
> title内容, 代码如下:
http://david-paste.cn/paste/57/ > 代码里面有使用mysql来做存储对象, 因为怕是终端的编码导致中文乱码, 打开http://www.sqlite.com.cn/ > MySqlite/11/310.Html就没有乱码的问题, 打开http://news.sina.com.cn/就 有乱码的问题, 不知道是为什 > 么了.
> 同时, 我有一个小问题, 我使用urllib.urlopen()打开一个页面, 得到的内容的编码是什么呢, unicode还是该页面的编码?
> 希望能够得到大家的答复~谢谢大家
No dispones del permiso necesario para enviar entradas.
De:
忧郁王子 <mykinghea... @gmail.com>
Fecha: Tue, 3 Nov 2009 01:21:45 -0800 (PST)
Local: Mart 3 nov 2009 04:21
Asunto: Re: 关于字符编码的问题, 有的行有的就不行
我看BeautifulSoup的手册上是说, 它会把所有进来的东西都转成unicode来处理的, 但是不知道为什么, 到了sina就不行了, 看到输出结果中, meta里确实编程utf-8了, 但是到中文就不行了. 郁闷了 On Nov 3, 5:08 pm, deafwolf <deafwolfdr... @gmail.com> wrote:
> 常规做法是读head的meta,可以得到编码,不过那个未必对
> 比较万全的做法是用chardet,准确率相当高,但是对于某些混合编码的页面,就应付不了了
> 而且,就算编码正确,仍然可能有某些字符无法转换,所以要加异常处理,放弃出错的部分
> On Nov 3, 5:01 pm, 忧郁王子 <mykinghea... @gmail.com> wrote:
> > 最近在拿Python做一些HTML解析的东西, 由于解析的是中文网站,所有就出现了很严重的编码问题. > > 程序的流程很简单, 通过urllib.urlopen()打开一个页面, 然后将它导入BeautifulSoup, 解析后, 输入页面的 > > title内容, 代码如下:http://david-paste.cn/paste/57/
> > 代码里面有使用mysql来做存储对象, 因为怕是终端的编码导致中文乱码, 打开http://www.sqlite.com.cn/ > > MySqlite/11/310.Html就没有乱码的问题, 打开http://news.sina.com.cn/就 有乱码的问题, 不知道是为什 > > 么了.
> > 同时, 我有一个小问题, 我使用urllib.urlopen()打开一个页面, 得到的内容的编码是什么呢, unicode还是该页面的编码?
> > 希望能够得到大家的答复~谢谢大家
No dispones del permiso necesario para enviar entradas.
De:
"CHEN,Zi-zhao" <p5... @livedoor.com>
Fecha: Wed, 4 Nov 2009 14:49:27 +0900
Local: Mié 4 nov 2009 00:49
Asunto: Re: [CPyUG:107033] Re: 关于字符编码的问题, 有的行有的就不行
也许读取http header更方便些。 2009/11/3 deafwolf <deafwolfdr... @gmail.com>:
> 常规做法是读head的meta,可以得到编码,不过那个未必对
> 比较万全的做法是用chardet,准确率相当高,但是对于某些混合编码的页面,就应付不了了
> 而且,就算编码正确,仍然可能有某些字符无法转换,所以要加异常处理,放弃出错的部分
> On Nov 3, 5:01 pm, 忧郁王子 <mykinghea... @gmail.com> wrote: >> 最近在拿Python做一些HTML解析的东西, 由于解析的是中文网站,所有就出现了很严重的编码问题. >> 程序的流程很简单, 通过urllib.urlopen()打开一个页面, 然后将它导入BeautifulSoup, 解析后, 输入页面的 >> title内容, 代码如下:http://david-paste.cn/paste/57/
>> 代码里面有使用mysql来做存储对象, 因为怕是终端的编码导致中文乱码, 打开http://www.sqlite.com.cn/ >> MySqlite/11/310.Html就没有乱码的问题, 打开http://news.sina.com.cn/就 有乱码的问题, 不知道是为什 >> 么了.
>> 同时, 我有一个小问题, 我使用urllib.urlopen()打开一个页面, 得到的内容的编码是什么呢, unicode还是该页面的编码?
>> 希望能够得到大家的答复~谢谢大家
-- CHEN,Zi-zhao w... @mrchen.info
No dispones del permiso necesario para enviar entradas.
De:
忧郁王子 <mykinghea... @gmail.com>
Fecha: Wed, 4 Nov 2009 01:44:19 -0800 (PST)
Local: Mié 4 nov 2009 04:44
Asunto: Re: 关于字符编码的问题, 有的行有的就不行
我今天换了lxml, 情况比BeautifulSoup好多了, 中文全部都转成unicode了, 放到HTML中, 直接显示中文了. On Nov 3, 5:21 pm, 忧郁王子 <mykinghea... @gmail.com> wrote:
> 我看BeautifulSoup的手册上是说, 它会把所有进来的东西都转成unicode来处理的, 但是不知道为什么, 到了sina就不行了,
> 看到输出结果中, meta里确实编程utf-8了, 但是到中文就不行了. 郁闷了
> On Nov 3, 5:08 pm, deafwolf <deafwolfdr... @gmail.com> wrote:
> > 常规做法是读head的meta,可以得到编码,不过那个未必对 > > 比较万全的做法是用chardet,准确率相当高,但是对于某些混合编码的页面,就应付不了了 > > 而且,就算编码正确,仍然可能有某些字符无法转换,所以要加异常处理,放弃出错的部分
> > On Nov 3, 5:01 pm, 忧郁王子 <mykinghea... @gmail.com> wrote:
> > > 最近在拿Python做一些HTML解析的东西, 由于解析的是中文网站,所有就出现了很严重的编码问题. > > > 程序的流程很简单, 通过urllib.urlopen()打开一个页面, 然后将它导入BeautifulSoup, 解析后, 输入页面的 > > > title内容, 代码如下:http://david-paste.cn/paste/57/
> > > 代码里面有使用mysql来做存储对象, 因为怕是终端的编码导致中文乱码, 打开http://www.sqlite.com.cn/ > > > MySqlite/11/310.Html就没有乱码的问题, 打开http://news.sina.com.cn/就 有乱码的问题, 不知道是为什 > > > 么了.
> > > 同时, 我有一个小问题, 我使用urllib.urlopen()打开一个页面, 得到的内容的编码是什么呢, unicode还是该页面的编码?
> > > 希望能够得到大家的答复~谢谢大家
No dispones del permiso necesario para enviar entradas.
De:
忧郁王子 <mykinghea... @gmail.com>
Fecha: Wed, 4 Nov 2009 01:45:02 -0800 (PST)
Local: Mié 4 nov 2009 04:45
Asunto: Re: 关于字符编码的问题, 有的行有的就不行
我今天换了lxml, 情况比BeautifulSoup好多了, 中文全部都转成unicode了, 放到HTML中, 直接显示中文了. On Nov 4, 1:49 pm, "CHEN,Zi-zhao" <p5... @livedoor.com> wrote:
> 也许读取http header更方便些。
> 2009/11/3 deafwolf <deafwolfdr... @gmail.com>:
> > 常规做法是读head的meta,可以得到编码,不过那个未必对 > > 比较万全的做法是用chardet,准确率相当高,但是对于某些混合编码的页面,就应付不了了 > > 而且,就算编码正确,仍然可能有某些字符无法转换,所以要加异常处理,放弃出错的部分
> > On Nov 3, 5:01 pm, 忧郁王子 <mykinghea... @gmail.com> wrote: > >> 最近在拿Python做一些HTML解析的东西, 由于解析的是中文网站,所有就出现了很严重的编码问题. > >> 程序的流程很简单, 通过urllib.urlopen()打开一个页面, 然后将它导入BeautifulSoup, 解析后, 输入页面的 > >> title内容, 代码如下:http://david-paste.cn/paste/57/
> >> 代码里面有使用mysql来做存储对象, 因为怕是终端的编码导致中文乱码, 打开http://www.sqlite.com.cn/ > >> MySqlite/11/310.Html就没有乱码的问题, 打开http://news.sina.com.cn/就 有乱码的问题, 不知道是为什 > >> 么了.
> >> 同时, 我有一个小问题, 我使用urllib.urlopen()打开一个页面, 得到的内容的编码是什么呢, unicode还是该页面的编码?
> >> 希望能够得到大家的答复~谢谢大家
> -- > CHEN,Zi-zhao > w... @mrchen.info
No dispones del permiso necesario para enviar entradas.
De:
Chen GUO <gcd0... @gmail.com>
Fecha: Thu, 5 Nov 2009 12:11:01 +0800
Local: Mié 4 nov 2009 23:11
Asunto: Re: [CPyUG:107199] Re: 关于字符编码的问题, 有的行有的就不行
UNICODE是个大族,不只是UTF8 On 11/4/09, 忧郁王子 <mykinghea... @gmail.com> wrote:
> 我今天换了lxml, 情况比BeautifulSoup好多了, 中文全部都转成unicode了, 放到HTML中, 直接显示中文了.
> On Nov 4, 1:49 pm, "CHEN,Zi-zhao" <p5... @livedoor.com> wrote: >> 也许读取http header更方便些。
>> 2009/11/3 deafwolf <deafwolfdr... @gmail.com>:
>> > 常规做法是读head的meta,可以得到编码,不过那个未必对 >> > 比较万全的做法是用chardet,准确率相当高,但是对于某些混合编码的页面,就应付不了了 >> > 而且,就算编码正确,仍然可能有某些字符无法转换,所以要加异常处理,放弃出错的部分
>> > On Nov 3, 5:01 pm, 忧郁王子 <mykinghea... @gmail.com> wrote: >> >> 最近在拿Python做一些HTML解析的东西, 由于解析的是中文网站,所有就出现了很严重的编码问题. >> >> 程序的流程很简单, 通过urllib.urlopen()打开一个页面, 然后将它导入BeautifulSoup, 解析后, 输入页面的 >> >> title内容, 代码如下:http://david-paste.cn/paste/57/
>> >> 代码里面有使用mysql来做存储对象, 因为怕是终端的编码导致中文乱码, 打开http://www.sqlite.com.cn/ >> >> MySqlite/11/310.Html就没有乱码的问题, 打开http://news.sina.com.cn/就 有乱码的问题, 不知道是为什 >> >> 么了.
>> >> 同时, 我有一个小问题, 我使用urllib.urlopen()打开一个页面, 得到的内容的编码是什么呢, unicode还是该页面的编码?
>> >> 希望能够得到大家的答复~谢谢大家
>> -- >> CHEN,Zi-zhao >> w... @mrchen.info
No dispones del permiso necesario para enviar entradas.